apache-spark - 如何确定失败阶段涉及的pyspark代码行？

由于内存不足错误，我的执行阶段失败。如何确定导致失败阶段的 pyspark 源代码行？

我使用 Web UI 来查看物理计划，这提供了一些洞察力，因为它引用了源代码中的变量名称。我还查看了 DAG 的失败阶段。但是，我一直无法将 DAG 的详细信息与实际计划联系起来。

我正在使用 Pyspark 2.4.3，并且正在使用 Dataframe API。

标签： apache-sparkpysparkpyspark-dataframes

你提到的最后一个错误：Java heap space。您需要为执行者提供更多资源。没有一条线失败，它是一个整体！