apache-spark - 如何确定失败阶段涉及的pyspark代码行?
问题描述
由于内存不足错误,我的执行阶段失败。如何确定导致失败阶段的 pyspark 源代码行?
我使用 Web UI 来查看物理计划,这提供了一些洞察力,因为它引用了源代码中的变量名称。我还查看了 DAG 的失败阶段。但是,我一直无法将 DAG 的详细信息与实际计划联系起来。
我正在使用 Pyspark 2.4.3,并且正在使用 Dataframe API。
解决方案
你提到的最后一个错误:Java heap space
。您需要为执行者提供更多资源。没有一条线失败,它是一个整体!
推荐阅读
- go - 删除redis集群中的多个key
- javascript - 使用 pdfkit python 在生产中下载为 PDF 时 PDF 图像模糊
- shell - AWK:读取所有行并完全基于另一个文件的每一行操作一个文件
- javascript - ReactJS - 从 redux 获取数据并加载表单的正确方法
- javascript - 以下是在需要在浏览器上运行的 JavaScript 中编写长计算的正确方法吗?
- go - 关于延迟行为的 Go 语言面试问题
- javascript - React Hooks 没有更新
- amazon-web-services - 如何从 Windows 中的 create-key-pair 命令生成 pem 文件?
- android-studio - @SuppressLint("CheckResult") 似乎不起作用
- arrays - 如何使用reduce方法Swift找到匹配的数字计数