apache-spark - 分区或 RDD 的大小
问题描述
我们如何计算 RDD 中分区的大小?不建议计算分区大小吗?我想在调用任何操作之前动态设置 shuffle 分区的数量,因此需要计算分区大小并根据要设置 shuffle 分区计数的执行程序的数量。
解决方案
“我想在调用任何操作之前动态设置随机分区的数量”
不幸的是,如果不深入研究底层代码,这对 spark 的 todo 具有挑战性。事实上,这是 spark 3.0 中的自适应执行带来的东西。它将做的是对数据集进行过度分区,然后动态组合小分区以达到某个阈值。
推荐阅读
- python - 我有类型错误,例如只能将 size-1 数组转换为 Python 标量
- ios - 如何在代码中检测是否处于 SwiftUI Preview 模式以跳过加载某些资源?
- json - 如何在 F# 中创建一个扫描 JSON 的 for 循环
- angular - 使用 NgRx 效果
- javascript - JavaScript 无法使用 attr 更改图像
- python - Python增加具有相同分布的列表中的元素数量
- python - 将数据保存在for循环中但不保存在循环中
- http - 如何将嵌套的 Json 作为来自 Flutter 的 http 发布请求发送到正文中
- python - Python Google Colab 笔记本,使用 ImageDataGenerator Flow_from_directory 时出现 filenotfounderror
- java - Java Discord Bot - 获取角色成员?