pyspark - 无法将 pyspark 中的数据框复制到 Databricks 中的 csv 文件
问题描述
我在 Databricks 的 Pyspark 环境中工作,并且有一个 pyspark 数据框,我将其称为 df。
我需要将此 spark 数据框推送到 csv 文件中,但我无法这样做。虽然没有弹出错误,但数据框不会被复制到 csv 中。下面是通用代码
path = “ “ #CSV File Location
header = “This is the header of the file"
With open(path,”a”) as f:
f.write(header+”\n”)
df.write.csv(path=path,format=“csv”,mode=“append”)
f.close
只有标头会反映在文件中,而不是数据帧中
解决方案
您可以使用以下方法将数据框编写为 csv:
df.coalesce(1).write.format("com.databricks.spark.csv").option("header", "true").save("dbfs:/FileStore/df.csv")
Coalesce 避免将其保存在多个分区中。您可以将自己的路径作为参数放入save()
.
推荐阅读
- javascript - 我可以将我的搜索框值作为参数传递给我的函数吗?
- django - 显示 django formset 错误的问题
- azure-storage - Azure ADLS Gen 2 写入 blob 存储
- elasticsearch - 使用 elasticsearch dsl 的 3 级嵌套布尔查询
- python - I tensorflow/core/platform/cpu_feature_guard.cc:137] 您的 CPU 支持未编译此 TensorFlow 二进制文件以使用的指令:SSE4.1 SSE4.2
- javascript - 这两种在对象内部定义函数的方式有什么区别?
- sftp - 有时会出现 java.io.IOException:管道在文件传输时从 jsch 关闭
- elasticsearch - 同一个ES指标下不止一种类型?
- android - 如何在使用选项卡时添加导航架构
- python - 我想写一个正则表达式来匹配不同风格的电话号码