python - Pandas 通过数据框搜索缺少变音符号的单词
问题描述
我正在尝试根据来自巴西的省/区数据字符串合并一些 CSV。但是,在一个 CSV (df1) 中,所有省份/地区的格式都正确,包括该单词应具有的确切变音符号。另一个 CSV (df2) 具有所有正确的字母,但缺少变音符号。有没有办法遍历 df1 (正确的省/区),提取所有唯一名称,然后将它们与 df2 匹配(缺少变音符号)?可能有 .str.contains() 的东西?
这是一个例子:
df1 有圣保罗
df2 有圣保罗
我希望程序找到这两个相同,然后将Sao Paulo替换为São Paulo。
解决方案
我认为这将对您有所帮助!
import unicodedata
s = 'Campos do Jordão é um município que recebe bastante turistas ao longo do ano. A maior parte das pessoas costuma ir até lá nos meses em que faz frio, pois há mais atrações nessas épocas.'
print(unicodedata.normalize('NFD', s).encode('ascii', 'ignore').decode('utf-8'))
输出 :Campos do Jordao e um municipio que recebe bastante turistas ao longo do ano. A maior parte das pessoas costuma ir ate la nos meses em que faz frio, pois ha mais atracoes nessas epocas.
对于您的情况,您可以检查与标准化结果的相似性。
推荐阅读
- python - 如何在 Django admin 中将内联 ForeignKey 查询集限制为实例本身
- intellij-idea - Intellij Idea 调试无法访问 maven 存储库:连接被拒绝
- javascript - 从图像 url 创建文件对象
- ios - 如何将 iphone 连接到在 mac 上运行的本地服务器?
- package - PSM 封装的替代方案
- python - 为什么这个url不能用python打开,而是可以直接从浏览器打开?
- migration - TYPO3 9.5:RealURL - 简单 GetVars 的迁移
- php - 如何从 laravel 5 升级到 laravel 6
- java - 如何在 Oracle AQ 中停止在未确认的情况下删除消息?
- classification - CustomVision.ai 对象检测与图像分类