首页 > 解决方案 > 如何识别哪些 URL 指向重复内容?

问题描述

我有一个大约 20,000 个 URL 的列表,但我知道其中一些指向重复的内容。在我的数据中,这种情况最常发生,因为多个 URL 解析到同一个位置,而没有重定向到规范 URL。它也发生在不同的位置(即登台服务器)。

我正在寻找一种“足够好”的方式来创建指向原始列表中唯一内容的 URL 列表。我的列表足够小,发送 GET 请求(在重定向之后)和获取页面内容是可行的。什么是一个好的方法?

这似乎是那些从事网络爬虫的人的常见问题。是否有任何已经存在的工具来完成繁重的工作?

我发现这个相关的问题指出了解决这个问题的许多一般方法,但我希望有人能指出我更具体的解决方案。

首选 Python,但不是必需的。

标签: pythonweburlduplicatesweb-crawler

解决方案


推荐阅读