首页 > 解决方案 > 读取 Dataframewriter Pyspark 编写的 Csv 文件

问题描述

我正在使用以下代码将数据框写入 CSV:

df.write.format("csv").save(base_path+"avg.csv")

当我在客户端模式下运行 spark 时,上面的代码片段创建了一个文件夹名称 avg.csv,并且该文件夹在我的工作节点或嵌套文件夹中包含一些带有 part-* .csv 的文件,然后是文件 part-*.csv。

现在,当我尝试阅读 avg.csv 时,我得到的路径不存在。

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

谁能告诉我我在哪里做错了?

标签: pythoncsvapache-sparkdataframepyspark

解决方案


Part-00**文件是分布式计算文件(如 MR、spark)的输出。因此,当您尝试存储时,它将始终是使用部分文件创建的文件夹,因为这是一些分布式存储的输出,请牢记。

所以,尝试使用:

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")

推荐阅读