首页 > 解决方案 > Python比较不同语言的字符串

问题描述

问题如下。

'Β'=='B'

Out[104]: False

为了清楚起见,第一个是希腊语“Β”,第二个是拉丁语“B”。

确保 python 将 False 作为输出是正确的,但出于我正在工作的脚本的目的,我需要将这些字符计为相同的字符。尝试了几种编码/解码操作,但仍然算作不同。有任何想法吗?

标签: pythonstringencodingnlp

解决方案


这个其他答案之后,

data="UTF-8 DATA"
udata=data.decode("utf-8")
asciidata=udata.encode("ascii","ignore")

当您从 8 位编码变为 7 位时,这将使您丢失数据(正如我引用的相同答案的评论所述),并且可能适用于您的问题。

祝你好运!


推荐阅读