python - 读取最初从 pyspark 转换的 pandas 数据帧时出错
问题描述
我在没有 pyspark 的机器上打开 ex-spark Dataframe 时遇到问题。
机器1:
df = spark.read.parquet("hdfs://url.com:8000/data/project01/dflast.parquet")
print(df.count())
print(type(df))
df1 = df.toPandas()
print(type(df1))
pd.to_pickle(df1, 'df_last.pkl', compression='zip')
1200 class 'pyspark.sql.dataframe.DataFrame' class 'pandas.core.frame.DataFrame'>
之后,我将泡菜下载到本地计算机,并尝试打开它,但出现错误
机器2:
df = pd.read_pickle('./data/df_last.pkl', compression='zip')
ModuleNotFoundError: No module named 'pyspark'>
怎么了?如果我已经将 pyspark 转换为 pandas,为什么还需要它?
解决方案
推荐阅读
- linux - Terraform - 无法在本地 exec 中运行多个命令
- python - 如何抑制 Linux 中的特定击键,使 xev 无法识别它们,但 Python 键盘模块可以?
- javascript - Svelte - 有没有办法在#each 中使用 JS?
- email - 如何让我的链接在浏览器中工作?
- google-calendar-api - 将 GSheet 与 GCalendar 同步
- java - 如何在java中集成irbis 64
- javascript - 节点流停止,没有任何错误或事件触发
- css - 如何在闪亮的xs以下减小按钮的大小?
- angular - 如何在角度离子中隐藏formio生成的表单向导上的取消按钮?
- html - 第一个 Svg 中风 Dasharray 影响其他 dasharrays