apache-spark - 在 csv 文件中写入数据框正在从字符串列中删除前导空格
问题描述
假设我有一个 csv 文件:
UserName
"Ali "
"Bilal "
"Ahsan "
当我在 Spark 中阅读此内容时,数据是正确的。
------------
- UserName -
------------
- Ali -
- Bilal -
- Ahsan -
但是当我将它写回 csv 文件时,空格会被删除并且文件有输出
UserName
"Ali"
"Bilal"
"Ahsan"
任何帮助将不胜感激。谢谢
解决方案
在编写时,使用选项 ignoreLeadingWhiteSpace 并且 ignoreTrailingWhiteSpace 为真。默认情况下,在 spark 中写入 csv 时它们为 false,在读取时为 true。
df.write.format("csv").option("ignoreTrailingWhiteSpace",true)..option("ignoreLeadingWhiteSpace",true).save(path)
如果解决了,请接受答案。
推荐阅读
- c++ - 为什么 C++ 标准禁止 const 元素的容器?
- android - 滚动视图不适用于约束布局
- java - HTTPServletRequest 对象 - 封装 - 最佳实践
- java - 无法反序列化为具体的 Java 类型
- wordpress - 更新旧插件
- pytest - 如何使用 tox+pytest 启用对 DeprecationWarning 和 PendingDeprecationWarning 的测试
- typescript - 定义某种类型的通用打字稿排序函数
- ruby-on-rails - Rails db:seed 未在 Ubuntu 16.04 上填充 postgresql
- node.js - 无法初始化 MongoDB
- php - 从回调返回值