首页 > 解决方案 > 读取最初从 pyspark 转换的 pandas 数据帧时出错

问题描述

我在没有 pyspark 的机器上打开 ex-spark Dataframe 时遇到问题。

机器1:

df = spark.read.parquet("hdfs://url.com:8000/data/project01/dflast.parquet")
print(df.count())
print(type(df))
df1 = df.toPandas()
print(type(df1))
pd.to_pickle(df1, 'df_last.pkl', compression='zip')
1200

class 'pyspark.sql.dataframe.DataFrame'

class 'pandas.core.frame.DataFrame'>

之后,我将泡菜下载到本地计算机,并尝试打开它,但出现错误

机器2:

df = pd.read_pickle('./data/df_last.pkl', compression='zip')

ModuleNotFoundError: No module named 'pyspark'>

怎么了?如果我已经将 pyspark 转换为 pandas,为什么还需要它?

标签: pythonpandasdataframepyspark

解决方案


推荐阅读