python - PySpark 中的 Ä ö ü 等
问题描述
我有个问题。我有一个带有字符串变量的数据框,该变量最初包含“Ä”、“ö”、“ü”等。我想用 Ae、oe 等替换这些字符。从 ü 到 ue 的直接 regexp_replace 当然不起作用。当我做
df.show()
Pyspark 向我展示了无处不在的相应字符为 �。我用谷歌搜索了一下,当我尝试用
decode(df.column, 'ISO-8859-1') *or* decode(df.column, 'ascii')
,我可以摆脱�,但是,返回始终是¿½k,即编码操作不区分ä,ö等。我尝试了此处提到的所有可能的解码/编码参数https://spark.apache .org/docs/3.1.1/api/python/reference/api/pyspark.sql.functions.decode.html
有人知道这个问题的解决方案吗?谢谢!
解决方案
推荐阅读
- javascript - 如何在 React 状态下访问 JSON 对象?
- asp.net-core - 由于异常“在前一个上下文之前启动了第二个操作”,因此无法以静态方法在 ASP.NET Core 中播种数据
- docker - docker 总是需要一个操作系统作为基础镜像吗
- c# - 如何避免 C# 列表框控件中的换行/居中
- python - Python 将类 object.variable 替换为适当的值
- c++ - 带有 std::initializer_list 的奇怪行为 constexpr
- r - 如何使用 R 中的 stargazer 包来报告 lm.cluster()
- azure - Azure 服务总线 - 取消的计划消息重新排队
- json - Python 请求 - JSONDecodeError("Expecting value", s, err.value) from None
- java - MapStruct:如何将属性从“java.lang.Object”映射到“java.lang.String”