首页 > 解决方案 > 如何删除 Spark Dataframe 中的垃圾字符■、�、□

问题描述

在使用 pyspark 结构化流从事件中心加载流数据时,我收到了一些垃圾字符,例如□, ■, �. 这些是 Unicode 字符。存储在源端的数据为NULNULNULNUL. '\u0000'是等效于NUL的 00 Char 的十进制等效值。前提是,我们不能在源端更改/更新数据。


有没有办法在 Spark Dataframe 中处理这些字符?我尝试了编码选项(UTF-8、16),但这对我没有帮助。

标签: apache-spark-sql

解决方案


推荐阅读