首页 > 解决方案 > 如何通过 spark 写入数据并获得聚合时间?

问题描述

假设我已经阅读了 Spark 的数据集。接下来,我想将其保存为 parquet 格式并获取一个max(column)值。这两个动作都需要读取数据集:1)计算最大值 2)以另一种格式写入。

是否可以将 Spark 设置为读取数据集一次并在写入操作期间计算最大值?

标签: scalaapache-spark

解决方案


不,

首先你计算最大值然后你写它。

计算最大值并写它是不同的阶段/任务..


推荐阅读