首页 > 解决方案 > 将火花数据帧转换为平面文件 .csv

问题描述

我有一个 spark 数据框(以下简称spark_df),我想将其转换为.csv格式。我尝试了以下两种方法:

spark_df_cut.write.csv('/my_location/my_file.csv')
spark_df_cut.repartition(1).write.csv("/my_location/my_file.csv", sep=',')

我没有收到任何错误消息,并且都完成了[似乎],但我在目标位置找不到任何输出文件!.csv有什么建议吗?

我在使用 spark '2.3.1' 的基于云的 Jupyternotebook 上。

标签: pythonapache-sparkpyspark

解决方案


spark_df_cut.write.csv将文件保存为零件文件。spark中没有直接的解决方案可以保存为.csv文件,可以直接用xls或其他文件打开。但是有多种解决方法可用一种解决方法是将 spark Dataframe 转换为 panda Dataframe 并使用to_csv如下方法

df  = spark.read.csv(path='game.csv', sep=',')
pdf = df.toPandas()
pdf.to_csv(path_or_buf='<path>/real.csv')

这会将数据保存为 .csv 文件

另一种方法是使用 hdfs 命令打开文件并将其放入文件中。如果您需要更多帮助,请发布


推荐阅读