scala - 在 spark scala 中读取 json 对象时,具有通用替换字符(“�”)的列被空值填充
问题描述
我正在尝试从包含多个单行 json 对象的 HDFS 读取 json 文件,例如,
{"id":"1","description":"Some_description","date":"20210910"}
{"id":"2","description":"Some_other_description","date":"20210911"}
{"id":"3","description":"Som�_value","date":"20210912"}
通过火花斯卡拉。
但是,当我处理这些数据时,在从 spark 调用 read 方法后,包含 � 字符的行中的所有值,即 id :3 行,都为空
我的阅读语法:
val inputDF = sparkSession.read
.format("json")
.schema(*some_schema*)
.option("encoding","UTF-16")
.load(*some_path*)
我尝试提供所有可能的编码(UTF-8、UTF-16、CP1252 等),但似乎没有任何效果。
有人可以帮我解决这种情况,这样当我得到任何带有�字符的行时,这些值不会被清空,我稍后可以在我的管道中单独处理。
谢谢
解决方案
推荐阅读
- python - HuggingFace Saving-Loading 模型 (Colab) 进行预测
- php - Laravel 定义与 3 个模型的关系
- html - Angular 11:如何检查是否应用了特定的子元素来删除 ng-content 的父 div?
- javascript - 每次我刷新页面项目在本地存储中重复
- java - 如何将蓝牙连接从活动传递到新活动?请帮助我
- docker - Codeception + Docker + 子域 + 多个域
- go - 在 Go 中为结构的切片或映射实现通用过滤器
- r - 按名称合并几个虚拟变量列
- javascript - 我如何像这样更改 javascript 日期格式-Mon Jun 07 2021 17:44:06 GMT+0300 (שעון ישראל (קיץ)) 到 2021-06-07(按此顺序年/月/日)
- makefile - 无论文件是否更改,都进行重建