python - 使用单个网络爬虫以预定义的格式和附件抓取多个网站？

问题描述

我有一个大约清单。52 个网站，导致大约 52 个网站。我需要抓取的 150 个网页。基于我的无知和缺乏研究，我开始为每个网页构建爬虫，这开始变得难以完成和维护。

根据我迄今为止的分析，我已经知道我想在每个网页上抓取哪些信息，并且很明显这些网站有自己的结构。从好的方面来说，我注意到每个网站的网页结构都有一些共同点。我的百万美元问题，是否有一种单一的技术或单一的网络爬虫可以用来抓取这些网站？我已经知道我想要的信息，这些网站的网络结构很少更新，而且这些网站中的大多数都有需要下载的文档。

或者，是否有更好的解决方案可以减少我需要构建的网络爬虫数量？此外，这些网络爬虫只会用于下载我所针对的网站的新信息。

标签： pythonscrapyweb-crawler

我建议您为每个链接抓取特定标签，例如body, h1, h2, h3, h4, h5, h6, pand...。您可以收集所有p标签并将它们附加到特定链接中。它可用于您要抓取它们的每个标签。此外，您可以将标签的相关链接附加到数据库中。

python - 使用单个网络爬虫以预定义的格式和附件抓取多个网站？

问题描述

解决方案

推荐阅读