scala - 如何计算特定列值的 min max avg 并将其存储在新列中?
问题描述
我是 Spark/Scala 的新手,所以我有很多问题之一。我有一个包含代码、描述、延迟的数据框。列代码具有重复值示例(EA)我想要代码的不同值和新列中的 depdelay 的最小值、最大值、平均值。
解决方案
据我了解,您想知道列代码中每个值的最小值、最大值、平均值。如果这是正确的,以下步骤将帮助您实现这一目标
- 在列代码上使用 groupby 函数,它将删除重复项并将代码中具有相同值的其他行的值分组。
- 不使用此分组数据,我们可以进行操作并找到最小值、最大值、平均值,请检查以下语法。
result=df.groupBy("code").agg(min($"depdelay").alias("min"),max($"depdelay").alias("depdelay"),avg($"depdelay").alias("avg"))
推荐阅读
- latex - 减少 Latex 中节点标签的大小
- python - TensorFlow 的速记运算符有哪些?
- ionic2 - Ionic/Leaflet.js:如何从 L.Draw.Event.CREATED 事件中调用函数?
- laravel - 未找到 Laravel PDO 类
- xml - 编写 bash 脚本以遍历目录
- php - 无法在数据库中插入值
- python - 是否可以查询z3的Python API是否发生超时?
- c# - Accord.NET SVM 分类任务的问题
- javascript - Formik 中的 getFieldValue 或类似内容
- powershell - PowerShell Get-Date 在移动的文件上写入不正确的日期