apache-spark-sql - 如何删除 Spark Dataframe 中的垃圾字符■、�、□

问题描述

在使用 pyspark 结构化流从事件中心加载流数据时，我收到了一些垃圾字符，例如□, ■, �. 这些是 Unicode 字符。存储在源端的数据为NULNULNULNUL. '\u0000'是等效于NUL的 00 Char 的十进制等效值。前提是，我们不能在源端更改/更新数据。

有没有办法在 Spark Dataframe 中处理这些字符？我尝试了编码选项（UTF-8、16），但这对我没有帮助。

标签： apache-spark-sql

apache-spark-sql - 如何删除 Spark Dataframe 中的垃圾字符■、�、□

问题描述

解决方案

推荐阅读