首页 > 解决方案 > 分区或 RDD 的大小

问题描述

我们如何计算 RDD 中分区的大小?不建议计算分区大小吗?我想在调用任何操作之前动态设置 shuffle 分区的数量,因此需要计算分区大小并根据要设置 shuffle 分区计数的执行程序的数量。

标签: apache-sparkrdd

解决方案


“我想在调用任何操作之前动态设置随机分区的数量”

不幸的是,如果不深入研究底层代码,这对 spark 的 todo 具有挑战性。事实上,这是 spark 3.0 中的自适应执行带来的东西。它将做的是对数据集进行过度分区,然后动态组合小分区以达到某个阈值。

https://databricks.com/blog/2020/05/29/adaptive-query-execution-speeding-up-spark-sql-at-runtime.html


推荐阅读