首页 > 解决方案 > PySpark 中的 Ä ö ü 等

问题描述

我有个问题。我有一个带有字符串变量的数据框,该变量最初包含“Ä”、“ö”、“ü”等。我想用 Ae、oe 等替换这些字符。从 ü 到 ue 的直接 regexp_replace 当然不起作用。当我做

df.show()

Pyspark 向我展示了无处不在的相应字符为 �。我用谷歌搜索了一下,当我尝试用

decode(df.column, 'ISO-8859-1') *or* decode(df.column, 'ascii')

,我可以摆脱�,但是,返回始终是¿½k,即编码操作不区分ä,ö等。我尝试了此处提到的所有可能的解码/编码参数https://spark.apache .org/docs/3.1.1/api/python/reference/api/pyspark.sql.functions.decode.html

有人知道这个问题的解决方案吗?谢谢!

标签: pythonpysparkutf-8ascii

解决方案


推荐阅读