首页 > 解决方案 > 如何为 Damerau-Levenshtein 距离选择合适的最大值?

问题描述

在我的相似性测量中,我正在使用此处提供的 Damerau-Levenshtein 代码。问题是,当我将 Damerau-Levenshtein 应用于两个字符串(例如cat sat on a matand dog sat mat)时,我得到的编辑距离为 8。这种相似性结果可以得到关于插入、删除或替换的任何数字,例如从 0、1、2 到的任何范围。 ... 现在我想知道是否有任何方法可以假设或找到该距离(相似性)的最大值并在 0 和 1 之间转换,或者我们如何设置至少我可以说的最大值:distance =1 - similarity.
这篇文章的原因是我为余弦、列文斯坦和 damerau 列文斯坦等一些距离度量设置了一个阈值,并且所有的输出都应该在 0 和 1 之间。

标签: pythondistancesimilaritylevenshtein-distancedamerau-levenshtein

解决方案


Levenshtein Distance score = number of insertion + number of deletion + number of substitution.

所以最大值是数据集中最大长度字符串的 3 X(乘)。


推荐阅读