首页 > 解决方案 > 将 pyspark 数据帧转换为 pandas 数据帧是否有更少的内存消耗方式?

问题描述

这就是我所做的

df = df.toPandas()

错误信息

Py4JJavaError: An error occurred while calling o3468.collectToPython.
: java.lang.OutOfMemoryError: GC overhead limit exceeded

有没有最适合这种情况的序列化技巧?

标签: pythonpandaspyspark

解决方案


推荐阅读