pandas - Pyspark 数据框到 Pandas 数据框
问题描述
我得到以下
将 pyspark Dataframe 转换为 Pandas Dataframe 时出错
代码:
some_df = sc.parallelize([
("A", "no"),
("B", "yes"),
("B", "yes"),
("B", "no")]
).toDF(["user_id", "phone_number"])
pandas_df = some_df.toPandas()
错误:Py4JJavaError:调用 o104.collectToPython 时出错。
解决方案
它在我的系统中运行良好我检查了它,当spark想要将所有数据加载到驱动程序内存中时出现此错误,因此可能您没有足够的内存增加驱动程序内存应该解决问题或清除垃圾使用gc.collect()
让我知道如果这有帮助。
推荐阅读
- web-worker - 无法从网络工作者读取/写入文件
- javascript - JQuery 链接 onClick 事件发送图像 - 如何获取链接对象?
- android - Kotlin 中的 edittext.setText("str") 和 edittext.text.text="str" 有什么区别?
- c# - 如何使用 Mediator 配置 MassTransit 以发布消息?
- android - Android Gradle“Api”不适用于外部库
- javascript - GRT 修复了响应式菜单 - jQuery 插件 - 关闭菜单的问题(点击链接后)
- google-apps-script - 获取表索引
- javascript - ReactJS 在生产中没有缩小错误
- javascript - 如何在嵌套对象中推送响应
- python - 如何在python中使用自己的键对数组进行排序