r - 检查两个文本字符串中文本的相似性
问题描述
我有两个文本字符串(通常是两个段落)。我正在寻找它们之间的“相似性”,例如检查一个段落是否是另一个段落的抄袭版本。理想情况下,我需要一个相似度分数,以及相似之处的指示。我更喜欢在 R 中完全做到这一点。请问有什么建议吗?
解决方案
刺痛的差异可以用 levenshtein 距离(或基于此的概念)来衡量。主要思想是量化字符串的“编辑距离”:需要包含/排除/更改多少个字母等(取决于算法或多或少允许的编辑类型)。R 中用于此任务的包将是模糊连接。
要查找相似之处,您可以在句子中剪切两个文本(原始文本和假定抄袭)并在此基础上构建模糊连接 - 然后您可以过滤最佳匹配。这个话题有点棘手,所以我建议尝试不同的算法(jaccard 距离、damerau levenshtein 等)。可以在此处找到该主题的开始:https ://cran.r-project.org/web/packages/fuzzyjoin/readme/README.html
推荐阅读
- javascript - 如何使用水豚从 ruby 调用异步 javascript 函数?
- security - 在 YOCTO 的链接器标志中添加“-pie”
- python - 某些选定日期的正则表达式匹配
- typo3 - TYPO3,新闻:通过获取参数更改排序顺序和方向
- reactjs - React 使用 this.state 还是 this.props?
- android - Firebase 电话身份验证:一旦电话进入,检查用户中是否有使用该电话的用户
- eclipse - Eclipse 代码错误标记不会自动刷新
- iis - ASP.NET WebAPI 在初始阶段响应缓慢
- javascript - 谷歌标签管理器单页应用程序获取历史更改元素
- php - 我得到“InvalidArgumentException Route [login] not defined”。当我在仅限管理员的管理路线上注销时