scala - 查找databricks错误中所有列的总和
问题描述
我是 Scala 的新手,我基本上想对数据集执行一些聚合。是否可以将它们全部组合在一起,或者我应该单独做每一个(总和,最小值,最大值)?
这是我迄今为止尝试过的:
display(
myDF
.groupBy($"age","sex","cp","trestbps","chol")
.sum()
)
它给了我以下错误消息:
错误:使用替代方法重载方法值 groupBy:
(col1: String,cols: String*)org.apache.spark.sql.RelationalGroupedDataset
(列:org.apache.spark.sql.Column*)org.apache.spark.sql.RelationalGroupedDataset
不能应用于 (org.apache.spark.sql.ColumnName, String, String, String, String)
解决方案
你想要整列的总和吗?如果是的话
myDF.agg(sum("列名")).show()
你的问题有点不清楚。您可以使用 .agg(sum("column name"),max("column name")) 执行聚合
推荐阅读
- python - 用字典读取 CSV 文件(不使用 pandas)
- reactjs - 错误:无效的钩子调用 - 调用模态组件时
- python - 如何在 PyAudio 中一次播放多个流
- android-studio - new View.OnClickListener () 灰显->“No Adapter Attached, skipping Layout”错误信息
- typescript - TypeScript 为核心类型声明合并
- reactjs - 内部/模块/cjs/loader.js:892 抛出错误
- google-sheets - “如果 1:选择 A,如果 2:连接 A 和 B,否则留空”的 Google 表格公式
- remote-debugging - Spring Boot – 开发者工具 – 远程模式抛出 CertificateException: No name matching localhost found
- aspnetboilerplate - 如何部分更新实体
- ruby - 如何在 Jekyll 布局中使用 Bootstrap?