首页 > 技术文章 > 实现文章重复的删除

zhanggl 2015-08-27 09:29 原文

最近项目需要网上抓取了论坛文章,文章是按照作者关联的,一个作者下面有很多文章,不同的作者之间的文章有可能是重复,发现里面有很多文章内容是重复。现在需要通过程序自动识别,如果文章 的相识度达到30%就删除时间比较晚更新的那篇。

 

推荐阅读