apache-spark - Pyspark - 如何检查 RDD 操作中的变量
问题描述
我曾经使用 IntelliJ 在 Scala Spark 中进行开发。通过设置断点,我能够在调试模式下检查变量内容。像这样
我最近使用 pyspark 和 pycharm 开始了一个新项目。我发现代码不会在 Spark 操作的断点处停止,如下所示。
另一个问题是提示提示没有给出正确的提示,例如“地图”功能。似乎IDE不知道“map”函数中的变量仍然存在RDD
,我猜它与python函数有关,没有定义返回类型。
对于 PySpark 开发人员,我觉得这些天真的问题。任何帮助都会很棒,谢谢!
解决方案
“...代码不会在 Spark 操作的断点处停止,如下所示...” - 您能否澄清一下您的 PyCharm 版本和操作系统是什么?
“另一个问题是提示提示没有给出正确的提示,例如“map”函数。似乎IDE不知道“map”函数中的变量仍然是rdd ...” - 我相信它与这个功能请求有关https://youtrack.jetbrains.com/issue/PY-29811
推荐阅读
- html - 试图让文本覆盖图片上的叠加层
- c - '0' 的代码 ascii 从 48 变为 0 我该如何解决?
- c# - 如何判断使用 System.CommandLine 时是否指定了选项?
- javascript - 如何创建一个行为一致的二十面体
- javascript - 无法获取/ heroku
- c++ - 为什么我可以通过 C++ 中的用户输入来初始化数组的大小?
- machine-learning - 训练数据和未标记“不是”数据的概念
- arrays - 在 Liquid 中循环遍历数组的前 3 项
- c# - ASP.NET Core 5 MVC:ArgumentNullException:值不能为空。(参数“项目”)
- docker - 使用 docker-compose 拒绝 Flink 的连接