首页 > 解决方案 > Pyspark - 如何检查 RDD 操作中的变量

问题描述

我曾经使用 IntelliJ 在 Scala Spark 中进行开发。通过设置断点,我能够在调试模式下检查变量内容。像这样 在此处输入图像描述

我最近使用 pyspark 和 pycharm 开始了一个新项目。我发现代码不会在 Spark 操作的断点处停止,如下所示。 在此处输入图像描述

另一个问题是提示提示没有给出正确的提示,例如“地图”功能。似乎IDE不知道“map”函数中的变量仍然存在RDD,我猜它与python函数有关,没有定义返回类型。

在此处输入图像描述 在此处输入图像描述

对于 PySpark 开发人员,我觉得这些天真的问题。任何帮助都会很棒,谢谢!

标签: apache-sparkintellij-ideapysparkpycharm

解决方案


“...代码不会在 Spark 操作的断点处停止,如下所示...” - 您能否澄清一下您的 PyCharm 版本和操作系统是什么?

“另一个问题是提示提示没有给出正确的提示,例如“map”函数。似乎IDE不知道“map”函数中的变量仍然是rdd ...” - 我相信它与这个功能请求有关https://youtrack.jetbrains.com/issue/PY-29811


推荐阅读