python - 从 R 到 Python 的字符串模糊匹配
问题描述
我正在尝试对 R 和 Python 使用字符串模糊匹配。我实际上正在使用两个包:
stringdist
来自 Rfuzzywuzzy
来自 Python
当我尝试amatch("PARI", c("HELLO", "WORLD"), maxDist = 2)
使用 R 时,我得到NA
了结果,这很直观。但是当我用 Python 尝试同样的事情时 : process.extract("PARI", ["HELLO", "WORLD"], limit = 2)
,我得到了[('world', 22), ('HELLO', 0)]
谁能告诉我为什么我有一个 22 作为 "PARI" 和 "WORLD" 之间的比率匹配?我怎样才能得到与 R 相同的结果?提前致谢
解决方案
这里的问题是limit = 2
明确表示无论分数如何,您都需要 2 个结果,而在 R 中,您指定仅在字符串彼此非常接近时才需要结果。这里的分数是衡量单词相似程度的 0 到 100。你可以看到它们PARI
的第三个字母都是,这就是为什么你得到一个非零分数,但它仍然不是一个很好的分数。world
R
推荐阅读
- c - 如何在c中的结构中初始化匿名联合
- python - 从 C# 调用带有 out 参数的覆盖方法到 python(使用 pythonnet)
- java - Dagger-Hilt 你忘记应用 Gradle 插件了吗?但我应用了插件
- wso2-am - 引起:java.io.FileNotFoundException: /wso2am-3.2.0/repository\conf\advanced\qpid-config.xml(没有这样的文件或目录)
- gitlab - Gitlab 静态 mkdoc 网站不起作用。可能是什么原因?
- c - 创建一个函数,将每个单词的第一个字母大写并将所有其他字母转换为小写
- python-3.x - 龙卷风招摇授权不起作用
- c# - 在另一个线程上终止窗口
- authentication - 为什么在指定服务以使用 GithubAuthProvider 进行身份验证时调用 ServiceStack JwtAuthProvider?
- python - 无法在网站上使用 Selenium 定位元素