apache-spark-sql - 如何删除 Spark Dataframe 中的垃圾字符■、�、□
问题描述
在使用 pyspark 结构化流从事件中心加载流数据时,我收到了一些垃圾字符,例如□, ■, �.
这些是 Unicode 字符。存储在源端的数据为NULNULNULNUL
. '\u0000'
是等效于NUL的 00 Char 的十进制等效值。前提是,我们不能在源端更改/更新数据。
有没有办法在 Spark Dataframe 中处理这些字符?我尝试了编码选项(UTF-8、16),但这对我没有帮助。
解决方案
推荐阅读
- java - 如何在 REST API 中使用下划线将驼峰大小写转换为小写?
- html - 内容响应式 HTML 表格
- javascript - 有没有办法更改本地存储中的键名。例如:
- python - 为什么 cross_val_score 与我手动计算时不同?
- google-chrome - 桌面谷歌浏览器拼写检查是否受操作系统影响?
- httpwebresponse - How to fix Veracode error "Server-Side Request Forgery (SSRF)" when using HttpWebResponse?
- android - React-Native Error: Unable to resolve module
- computer-vision - 立体系统中的三角测量导致的深度误差
- html - 至少 3 个单词或更多,但使用阿拉伯语 [HTML 模式]
- python - 在多字串的空格之间添加一个字符