首页 > 解决方案 > 检查两个文本字符串中文本的相似性

问题描述

我有两个文本字符串(通常是两个段落)。我正在寻找它们之间的“相似性”,例如检查一个段落是否是另一个段落的抄袭版本。理想情况下,我需要一个相似度分数,以及相似之处的指示。我更喜欢在 R 中完全做到这一点。请问有什么建议吗?

标签: r

解决方案


刺痛的差异可以用 levenshtein 距离(或基于此的概念)来衡量。主要思想是量化字符串的“编辑距离”:需要包含/排除/更改多少个字母等(取决于算法或多或少允许的编辑类型)。R 中用于此任务的包将是模糊连接。

要查找相似之处,您可以在句子中剪切两个文本(原始文本和假定抄袭)并在此基础上构建模糊连接 - 然后您可以过滤最佳匹配。这个话题有点棘手,所以我建议尝试不同的算法(jaccard 距离、damerau levenshtein 等)。可以在此处找到该主题的开始:https ://cran.r-project.org/web/packages/fuzzyjoin/readme/README.html


推荐阅读