python - 如何识别哪些 URL 指向重复内容?
问题描述
我有一个大约 20,000 个 URL 的列表,但我知道其中一些指向重复的内容。在我的数据中,这种情况最常发生,因为多个 URL 解析到同一个位置,而没有重定向到规范 URL。它也发生在不同的位置(即登台服务器)。
我正在寻找一种“足够好”的方式来创建指向原始列表中唯一内容的 URL 列表。我的列表足够小,发送 GET 请求(在重定向之后)和获取页面内容是可行的。什么是一个好的方法?
这似乎是那些从事网络爬虫的人的常见问题。是否有任何已经存在的工具来完成繁重的工作?
我发现这个相关的问题指出了解决这个问题的许多一般方法,但我希望有人能指出我更具体的解决方案。
首选 Python,但不是必需的。
解决方案
推荐阅读
- vue.js - Vue table row-contextmenu 事件未触发?
- r - 如何将打印的表格转换为数据框
- git - 自动更新/推送 git 子模块的任何方式(没有 cmd 这样做)
- security - API 网关的可选授权
- c - c中的typedef:结构或函数引用?
- node.js - 使用 NextJS api 路由和 isomorphic-unfetch 将图像上传到文件夹
- azure-devops - 单一存储库中 PR 的 Azure DevOps 管道结构
- pandas - Pandas secondary_y:如何将图例放在情节之外?
- angular - Angular 材质菜单中的叠加层显示不正确
- reactjs - 当您使用 react、typescript 和 graphql 单击按钮时,如何通过调用查询来更新状态?