scala - 查找databricks错误中所有列的总和

问题描述

我是 Scala 的新手，我基本上想对数据集执行一些聚合。是否可以将它们全部组合在一起，或者我应该单独做每一个（总和，最小值，最大值）？

这是我迄今为止尝试过的：

display(
  myDF
    .groupBy($"age","sex","cp","trestbps","chol")
    .sum()
)

它给了我以下错误消息：

错误：使用替代方法重载方法值 groupBy：

(col1: String,cols: String*)org.apache.spark.sql.RelationalGroupedDataset

（列：org.apache.spark.sql.Column*）org.apache.spark.sql.RelationalGroupedDataset

不能应用于 (org.apache.spark.sql.ColumnName, String, String, String, String)

标签： scalaapache-spark

你想要整列的总和吗？如果是的话

myDF.agg(sum("列名")).show()

你的问题有点不清楚。您可以使用 .agg(sum("column name"),max("column name")) 执行聚合

scala - 查找databricks错误中所有列的总和

问题描述

解决方案

推荐阅读