首页 > 解决方案 > 如何从文本列表中检测近重复项?

问题描述

我有一个 90K 文本行的列表。我想从中找到几乎重复的内容并将它们标记为重复内容。如何使用 Python 做到这一点?

标签: python

解决方案


您需要定义“几乎重复”的含义。如果我猜测,两行文本“接近重复”的一种可能定义是它们具有低Levenshtein distance。一种流行的 Python 实现似乎是这个,但我自己不能保证。

如果这是一个可接受的定义,那么您可以简单地计算文本行之间的所有成对的 Levenshtein 距离,并标记那些低于给定阈值的距离。


推荐阅读