scala - Spark 数据集

问题描述

我正在将 Spark 与 Scala 一起使用，并试图找到Dataset按键分组的最佳方法，并将平均值 + 加起来。

例如，

我有Dataset[Player]，并且Player包括： playerId ， yearSignup ， level ， points 。
我想按 yearSignup 对这个数据集进行分组，并计算每年：点总和和平均水平。
所以用groupByKey(p=>p.yearSignup), 和reduceGroups(p1,p2)，我可以得到点的总和：(p1.points ++ p2.points)用reduceLeft.

但是如何获得平均水平呢？我应该先把它加起来，然后在那个组之后再划分它吗？或者还有另一种方法可以一起完成。

标签： scalaapache-sparkdatasetapache-spark-dataset

在你之后groupby，你可以.agg同时使用sum和avg。（见文档）

import org.apache.spark.sql.functions._

Player
  .groupBy($"yearSignup")
  .agg(
    avg($"level").as("avg_level")
    sum($"points").as("total_points")
  )

scala - Spark 数据集 - 平均函数

问题描述

解决方案

推荐阅读