python - 将 pyspark 数据帧转换为 pandas 数据帧是否有更少的内存消耗方式?
问题描述
这就是我所做的
df = df.toPandas()
错误信息
Py4JJavaError: An error occurred while calling o3468.collectToPython.
: java.lang.OutOfMemoryError: GC overhead limit exceeded
有没有最适合这种情况的序列化技巧?
解决方案
推荐阅读
- php - 在 laravel 问题中通过复选框获取数据
- mysql - SQL Query 未返回所需结果且 NOT LIKE
- angular - 带有自定义按钮且在 IONIC 中没有自动隐藏的启动画面
- graph - 如何在没有基本事实的情况下评估社区检测
- javascript - JS 模块 - 参考错误:
没有定义 - javascript - 在同一个 Node JS 实例上对同一个文件的多个请求有多昂贵?
- html - PowerShell:将数组转换为 html 表
- sql - 替换从 SQL 查询返回的值
- javascript - 减慢 div 的水平滚动
- javascript - 未调用 Solidity 事件