首页 > 解决方案 > Pyspark 数据框到 Pandas 数据框

问题描述

我得到以下

将 pyspark Dataframe 转换为 Pandas Dataframe 时出错

代码:

some_df = sc.parallelize([
 ("A", "no"),
 ("B", "yes"),
 ("B", "yes"),
 ("B", "no")]
 ).toDF(["user_id", "phone_number"])

pandas_df = some_df.toPandas()

错误:Py4JJavaError:调用 o104.collectToPython 时出错。 在此处输入图像描述

标签: pandasdataframepyspark

解决方案


它在我的系统中运行良好我检查了它,当spark想要将所有数据加载到驱动程序内存中时出现此错误,因此可能您没有足够的内存增加驱动程序内存应该解决问题或清除垃圾使用gc.collect()让我知道如果这有帮助。


推荐阅读