首页 > 解决方案 > 升级版本时 Spark shuffle 磁盘溢出增加

问题描述

从 spark 2.3 升级到 spark 2.4.3 时,我看到我的一个阶段产生的随机磁盘溢出量增加了 20-30%。

在两种环境中执行相同的代码。

两种环境之间的所有配置都相同

标签: apache-sparkpysparkapache-spark-2.3

解决方案


在 2.4.3 和 2.3.0 上运行 .explain(false)。另外转储两者上使用的配置。在这些版本中,优化规则的方式发生了变化。还有你在哪里运行火花?有一个肮脏的秘密是,许多 spark 的提供者一直在定制和改进 spark 的底层。我怀疑发生的事情比你怀疑的要多。


推荐阅读