首页 > 解决方案 > 日语“半语音”字符的转换

问题描述

我试图比较两个包含日文字符的 spark 数据框,其中一些字符看起来相同但实际上与程序不同,例如 プ vs プ</p>

如果你把它们放在 utf-8 编码器中:

プ utf-8 = \xE3\x83\x97

プ utf-8 = \xE3\x83\x95\xE3\x82\x9A

好像フ(\xE3\x83\x95) + 小圆圈半声标(\xE3\x83\x95) = プ

这些区别叫什么,有什么方法可以在 Java/Scala 中转换它们?

谢谢你。

标签: javaapache-spark-sqlcharacter-encodingcjkutf

解决方案



推荐阅读