首页 > 解决方案 > 查找databricks错误中所有列的总和

问题描述

我是 Scala 的新手,我基本上想对数据集执行一些聚合。是否可以将它们全部组合在一起,或者我应该单独做每一个(总和,最小值,最大值)?

这是我迄今为止尝试过的:

display(
  myDF
    .groupBy($"age","sex","cp","trestbps","chol")
    .sum()
)

它给了我以下错误消息:

错误:使用替代方法重载方法值 groupBy:

(col1: String,cols: String*)org.apache.spark.sql.RelationalGroupedDataset

(列:org.apache.spark.sql.Column*)org.apache.spark.sql.RelationalGroupedDataset

不能应用于 (org.apache.spark.sql.ColumnName, String, String, String, String)

标签: scalaapache-spark

解决方案


你想要整列的总和吗?如果是的话

myDF.agg(sum("列名")).show()

你的问题有点不清楚。您可以使用 .agg(sum("column name"),max("column name")) 执行聚合


推荐阅读