apache-spark - 升级版本时 Spark shuffle 磁盘溢出增加
问题描述
从 spark 2.3 升级到 spark 2.4.3 时,我看到我的一个阶段产生的随机磁盘溢出量增加了 20-30%。
在两种环境中执行相同的代码。
两种环境之间的所有配置都相同
解决方案
在 2.4.3 和 2.3.0 上运行 .explain(false)。另外转储两者上使用的配置。在这些版本中,优化规则的方式发生了变化。还有你在哪里运行火花?有一个肮脏的秘密是,许多 spark 的提供者一直在定制和改进 spark 的底层。我怀疑发生的事情比你怀疑的要多。
推荐阅读
- regex - 如何在 WebStorm 搜索(和其他 JetBrains IDE)中使用开始和结束限制?
- sql - 如果数组中的相关表值(postgresql),则在表上设置值
- django - 使用过滤器开头的空集
- visual-paradigm - Visual Paradigm 是否支持点文件的导入/导出?
- f# - F#迭代对象序列并根据属性有条件地聚合
- unity3d - UnityEventSystem 无法在具有多个相同组件的对象上区分事件系统中的目标组件
- java - 当我将 primefaces 依赖版本从 6.0 降级到 5.3 时出错
- r - 如何在ggplot中移动X轴的起点?
- angular - Angular / Chrome 扩展 - 收到回调时更新视图
- spring-boot - 模拟服务器和调用的服务