apache-spark - spark 2.4:AQE 是否优先于 spark.sql.shuffle.partitions?
问题描述
我试图了解spark.sql.shuffle.partitions
在 spark 2.4 中自适应查询的执行和交互如何(尽管如果这在 spark 3.0 中发生了变化,那也会很有趣)。
如果我将 AQE 设置为 true(与 spark 3.0 不同,在 spark 2.4 中默认为 False),它可以选择更高和更低的分区数吗?还是取决于我是否设置spark.sql.adaptive.coalescePartitions.enabled
为true?
在我相当大的应用程序中,我的代码过去常常崩溃,直到我指定了足够的分区。AQE 已启用,但不知何故无法为我做到这一点。在明确设置分区后(AQE 仍然打开),代码可以可靠地工作。
(我在 CDH 上使用 pyspark,spark 2.4)
解决方案
推荐阅读
- arrays - JSON数组在一种情况下编码,但不是另一种情况
- javascript - 我的 forEach 在我的 javascript 字典中以相反的顺序循环,为什么?
- python - 对 Pandas 数据框中的行对应用函数
- javascript - 如何使用 || 类中的运算符设置默认值?
- r - 在 R 中的 ggplot 上设置不同的范围
- kotlin - 为什么打印 IntArray 显示的是地址而不是数组的值?
- javascript - 根据嵌套值过滤嵌套数组
- laravel - Laravel 验证 + 测试,依赖另一个字段的字段
- matlab - Matlab函数不会绘图
- python - 如何正确使用带有应用功能的熊猫 groupby 来解决副作用?(第一组申请两次)