python - 有效的编辑距离
问题描述
我有一个很大的语料库,我试图在语料库中找到最相似的 n-gram。对于这种情况,我使用get_close matches
.
问题是这个过程需要很多时间。一位朋友建议我将 n-gram 转换为 MD5,然后计算距离。我怀疑它会起作用。散列对散列是不变的吗?距离计算是否有效地在 MD5 上运行?
Post scriptum,在大型语料库中计算字符串(如n-gram)之间距离的最有效方法是什么?
解决方案
一个有前途的方法是度量嵌入。在这篇论文:Convolutional Embedding for Edit Distance研究人员指出,该算法可以将搜索速度提高几个数量级。在进行训练度量嵌入之后,您可以应用近似最近邻算法来找到距离最短的 k 个文本。
HTH。
推荐阅读
- r - PMCID表行到列形式的解析
- mysql - Kubernetes 上的 PVC 如何与 MYSQL 协同工作?
- r - 来自 rstatix 的 anova_test 出现无法解释的错误
- javascript - Vue选择值
- javascript - 当其余应该是MaterialUI Grid中的列时,如何将两个项目作为行放在一列中?
- javascript - 如何根据其位置放置可拖动项目
- php - PHP / Laravel:如何处理 SSE 流并解析获取的数据
- css - 有没有办法在 sass 中确定第三方 css 的范围?
- python - Python 多进程良好实践
- node.js - nodejs中护照密码重置的问题