首页 > 解决方案 > Pyspark 到 pandas df 需要很多时间

问题描述

将 pyspark 对象转换为 pandas 需要很长时间。如何存储在熊猫df中?

我有以下代码(示例)。我正在从 pyspark 中提取数据,然后从 teradata 中提取数据,最后在 python 中加入 2 个不同的 df。但是,将 pp_data2 转换为 pandas df 大约需要 2 小时。

pp_data2 = sqlContext.sql('''SELECT c1,c2,c3 

FROM cstonedb3.pp_data 

where prod in ('7QD','7RJ','7RK','7RL','7RM') ''')

pp_data2 = pp_data2.toPandas()

标签: pythonpython-3.xpandasdataframe

解决方案


推荐阅读