首页 > 解决方案 > Spark 数据集 - 平均函数

问题描述

我正在将 Spark 与 Scala 一起使用,并试图找到Dataset按键分组的最佳方法,并将平均值 + 加起来。

例如,

但是如何获得平均水平呢?我应该先把它加起来,然后在那个组之后再划分它吗?或者还有另一种方法可以一起完成。

标签: scalaapache-sparkdatasetapache-spark-dataset

解决方案


在你之后groupby,你可以.agg同时使用sumavg。(见文档

import org.apache.spark.sql.functions._

Player
  .groupBy($"yearSignup")
  .agg(
    avg($"level").as("avg_level")
    sum($"points").as("total_points")
  )

推荐阅读