首页 > 解决方案 > 处理具有不同 unicode 代码的相似字符

问题描述

我正在使用一个 JSON,其中一些字段由不同国家的人类填写。一些脚本共享一个字母,但每个脚本都有不同的 unicode ID。

以下是一些例子:

Р是 Cyrillic 脚本具有 unicode ID 0x420P在拉丁字母中具有 unicode ID 0x50

е并分别e具有 unicode ID0x4350x45

МM具有 unicode ID0x41c0x4d.

这导致难以理解的行为:

'МРе' in 'MPe'
False

'MPe' in 'MPe'
True

我没有任何方法来控制传入的数据。

在 Python 中处理类似 unicode 字符的最佳方法是什么?'MPe' in 'MPe' is True换个说法,不管数据来自什么脚本,最好的方法是什么?

标签: pythonstringunicodecharacter-encoding

解决方案


推荐阅读