scala - 如何通过 spark 写入数据并获得聚合时间？

假设我已经阅读了 Spark 的数据集。接下来，我想将其保存为 parquet 格式并获取一个max(column)值。这两个动作都需要读取数据集：1）计算最大值 2）以另一种格式写入。

是否可以将 Spark 设置为读取数据集一次并在写入操作期间计算最大值？

标签： scalaapache-spark

不，

首先你计算最大值然后你写它。

计算最大值并写它是不同的阶段/任务..