apache-spark - 使用自定义行/行分隔符/分隔符将 DataFrame 写入 csv 文件
问题描述
我需要生成一个分隔文件,其中每一行由'^'分隔,列由'|'分隔。
似乎没有选项可以更改 csv 输出类型的行分隔符。
例如:
df.coalesce(1).write\
.format("com.databricks.spark.csv")\
.mode("overwrite")\
.option("header", "true")\
.option("sep","|")\
# no options for setting lineSep to '^'
.save(destination_path)
解决方案
一种解决方案包括将 DataFrame 转换为 rdd :
df.rdd.map(x=>x.mkString("^")).saveAsTextFile("OutCSV")
推荐阅读
- vba - Word VBA:删除段落标记
- javascript - 有没有办法将数据属性添加到 codemirror 行?
- python - 新样式 getargs 格式,但参数不是元组错误调用洪水填充
- graphviz - 为什么 shape=record 不画箭头?
- javascript - 从 JavaScript 调用 Blazor 方法
- kotlin - 为什么翻译后的 kotlin 代码抱怨数组
? 成为一个数组 - android - 为什么 JSON 数据仅作为第一个字符返回?
- ios - 在蓝色参考文件夹中找不到新图像
- java - 如何使用 .bat 在 mac 中启动 appium 桌面 1.6.1
- azure-ad-b2c - 是否可以使用 Azure B2C 自定义策略中的声明转换来计算年龄组?