首页 > 解决方案 > 使用单个网络爬虫以预定义的格式和附件抓取多个网站?

问题描述

我有一个大约清单。52 个网站,导致大约 52 个网站。我需要抓取的 150 个网页。基于我的无知和缺乏研究,我开始为每个网页构建爬虫,这开始变得难以完成和维护。

根据我迄今为止的分析,我已经知道我想在每个网页上抓取哪些信息,并且很明显这些网站有自己的结构。从好的方面来说,我注意到每个网站的网页结构都有一些共同点。我的百万美元问题,是否有一种单一的技术或单一的网络爬虫可以用来抓取这些网站?我已经知道我想要的信息,这些网站的网络结构很少更新,而且这些网站中的大多数都有需要下载的文档。

或者,是否有更好的解决方案可以减少我需要构建的网络爬虫数量?此外,这些网络爬虫只会用于下载我所针对的网站的新信息。

标签: pythonscrapyweb-crawler

解决方案


我建议您为每个链接抓取特定标签,例如body, h1, h2, h3, h4, h5, h6, pand...。您可以收集所有p标签并将它们附加到特定链接中。它可用于您要抓取它们的每个标签。此外,您可以将标签的相关链接附加到数据库中。


推荐阅读