python - 读取 Dataframewriter Pyspark 编写的 Csv 文件

我正在使用以下代码将数据框写入 CSV：

df.write.format("csv").save(base_path+"avg.csv")

当我在客户端模式下运行 spark 时，上面的代码片段创建了一个文件夹名称 avg.csv，并且该文件夹在我的工作节点或嵌套文件夹中包含一些带有 part-* .csv 的文件，然后是文件 part-*.csv。

现在，当我尝试阅读 avg.csv 时，我得到的路径不存在。

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

谁能告诉我我在哪里做错了？

标签： pythoncsvapache-sparkdataframepyspark

Part-00**文件是分布式计算文件（如 MR、spark）的输出。因此，当您尝试存储时，它将始终是使用部分文件创建的文件夹，因为这是一些分布式存储的输出，请牢记。

所以，尝试使用：

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")