首页 > 解决方案 > Pandas 通过数据框搜索缺少变音符号的单词

问题描述

我正在尝试根据来自巴西的省/区数据字符串合并一些 CSV。但是,在一个 CSV (df1) 中,所有省份/地区的格式都正确,包括该单词应具有的确切变音符号。另一个 CSV (df2) 具有所有正确的字母,但缺少变音符号。有没有办法遍历 df1 (正确的省/区),提取所有唯一名称,然后将它们与 df2 匹配(缺少变音符号)?可能有 .str.contains() 的东西?

这是一个例子:

df1 有圣保罗

df2 有圣保罗

我希望程序找到这两个相同,然后将Sao Paulo替换为São Paulo。

标签: pythonpandasdataframe

解决方案


我认为这将对您有所帮助!

import unicodedata

s = 'Campos do Jordão é um município que recebe bastante turistas ao longo do ano. A maior parte das pessoas costuma ir até lá nos meses em que faz frio, pois há mais atrações nessas épocas.'
print(unicodedata.normalize('NFD', s).encode('ascii', 'ignore').decode('utf-8'))

输出 :Campos do Jordao e um municipio que recebe bastante turistas ao longo do ano. A maior parte das pessoas costuma ir ate la nos meses em que faz frio, pois ha mais atracoes nessas epocas.

对于您的情况,您可以检查与标准化结果的相似性。


推荐阅读