python - 处理具有不同 unicode 代码的相似字符
问题描述
我正在使用一个 JSON,其中一些字段由不同国家的人类填写。一些脚本共享一个字母,但每个脚本都有不同的 unicode ID。
以下是一些例子:
Р
是 Cyrillic 脚本具有 unicode ID 0x420
。P
在拉丁字母中具有 unicode ID 0x50
。
е
并分别e
具有 unicode ID0x435
和0x45
。
М
并M
具有 unicode ID0x41c
和0x4d
.
这导致难以理解的行为:
'МРе' in 'MPe'
False
'MPe' in 'MPe'
True
我没有任何方法来控制传入的数据。
在 Python 中处理类似 unicode 字符的最佳方法是什么?'MPe' in 'MPe' is True
换个说法,不管数据来自什么脚本,最好的方法是什么?
解决方案
推荐阅读
- javascript - Laravel 应用程序中未调用 Javascript 函数
- php - 在服务器中运行的 REST api 给出错误消息
- rust - 为什么 add_cart 抱怨错误?
- mongodb - 如何在 mongoose get 调用中包含 url 过滤器参数
- python - Pycharm 控制台对某些特殊字符串没有响应
- tcpdump - tcpreplay 不工作客户端不接收数据
- python - python socket.recv 未显示为文本
- ruby-on-rails - 如何使用 axlsx(Ruby on Rails)在 Excel 中显示动态列数?
- php - 如何在 Wordpress 中覆盖 PHP 文件?
- python-3.x - 滑动窗口和识别列表中的特定字符