首页 > 解决方案 > 如何确定失败阶段涉及的pyspark代码行?

问题描述

由于内存不足错误,我的执行阶段失败。如何确定导致失败阶段的 pyspark 源代码行?

我使用 Web UI 来查看物理计划,这提供了一些洞察力,因为它引用了源代码中的变量名称。我还查看了 DAG 的失败阶段。但是,我一直无法将 DAG 的详细信息与实际计划联系起来。

我正在使用 Pyspark 2.4.3,并且正在使用 Dataframe API。

标签: apache-sparkpysparkpyspark-dataframes

解决方案


你提到的最后一个错误:Java heap space。您需要为执行者提供更多资源。没有一条线失败,它是一个整体!


推荐阅读