python - 读取 Dataframewriter Pyspark 编写的 Csv 文件
问题描述
我正在使用以下代码将数据框写入 CSV:
df.write.format("csv").save(base_path+"avg.csv")
当我在客户端模式下运行 spark 时,上面的代码片段创建了一个文件夹名称 avg.csv,并且该文件夹在我的工作节点或嵌套文件夹中包含一些带有 part-* .csv 的文件,然后是文件 part-*.csv。
现在,当我尝试阅读 avg.csv 时,我得到的路径不存在。
df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")
谁能告诉我我在哪里做错了?
解决方案
Part-00**
文件是分布式计算文件(如 MR、spark)的输出。因此,当您尝试存储时,它将始终是使用部分文件创建的文件夹,因为这是一些分布式存储的输出,请牢记。
所以,尝试使用:
df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")
推荐阅读
- r - 在图表中添加一条最佳拟合线
- javascript - 如何以刷新后的方式设置数据它也保持在那里反应
- reactjs - 无法弄清楚为什么 onClick 没有更新状态
- c - 将单精度浮点数转换为半精度浮点数
- bash - 存储 awk 查询的状态
- laravel - 带有 laravel mix 的 vuejs 的大 app.js 文件大小(13 MB)
- c++ - 是 const_cast
(const char*) 在 std::string::data() 的情况下未定义的行为? - unity3d - Physics2D.OverLapBox 检测应忽略的对象
- regex - 如何使用 Spark 在 Scala 中为 Regex 类构建编码器
- r - R中的内存分析:如何找到最大内存使用的位置?