python - 如何从文本列表中检测近重复项?
问题描述
我有一个 90K 文本行的列表。我想从中找到几乎重复的内容并将它们标记为重复内容。如何使用 Python 做到这一点?
解决方案
您需要定义“几乎重复”的含义。如果我猜测,两行文本“接近重复”的一种可能定义是它们具有低Levenshtein distance。一种流行的 Python 实现似乎是这个,但我自己不能保证。
如果这是一个可接受的定义,那么您可以简单地计算文本行之间的所有成对的 Levenshtein 距离,并标记那些低于给定阈值的距离。
推荐阅读
- ios - 将tableViewCell保存在数组中,将UITableViewCell缓存在数组中
- automapper - AutoMapper 使用相同类型的多个值转换器
- vim - 打开新文件后关闭 netrw 资源管理器
- javascript - 用柏树断言测试表单重定向?
- bash - 在 Bash 中更改“没有这样的文件或目录”消息
- python-3.x - 通过python读取文件时,在每行打印后打印文件成功,但在一个空行之后,为什么?
- apache - 一个IP 两个虚拟机
- django - docker 卡在 pip install 上
- javascript - 反应钩子:超过最大深度
- chart.js - 如何设置水平条形图的类别高度?