scala - 如何通过 spark 写入数据并获得聚合时间?
问题描述
假设我已经阅读了 Spark 的数据集。接下来,我想将其保存为 parquet 格式并获取一个max(column)
值。这两个动作都需要读取数据集:1)计算最大值 2)以另一种格式写入。
是否可以将 Spark 设置为读取数据集一次并在写入操作期间计算最大值?
解决方案
不,
首先你计算最大值然后你写它。
计算最大值并写它是不同的阶段/任务..
推荐阅读
- facebook - 无需权限即可在开发模式下运行 Facebook Messenger Bot APIv3.1
- javascript - 实现 css 日期选择器选项
- rxjs - 使用 RxJs 和 AngularFirestore 通过外键获取单个文档
- visual-studio-code - VS Code:片段选择转义“无字符”
- python-3.x - Python Pandas DataFrame从0重新索引某个数据
- php -
? 使用 PHP Regex 或 DOM,如何在标签之间获取带有 eol 或换行符的网页? - elasticsearch - 使用 @Query 为弹性搜索编写一个 dao
- android-studio - 在 android studio 上向 WhatsApp 中的特定联系人发送消息
- sql - 在 Oracle 中检索对象
- sql - 子查询中的循环日期