python - 使用单个网络爬虫以预定义的格式和附件抓取多个网站?
问题描述
我有一个大约清单。52 个网站,导致大约 52 个网站。我需要抓取的 150 个网页。基于我的无知和缺乏研究,我开始为每个网页构建爬虫,这开始变得难以完成和维护。
根据我迄今为止的分析,我已经知道我想在每个网页上抓取哪些信息,并且很明显这些网站有自己的结构。从好的方面来说,我注意到每个网站的网页结构都有一些共同点。我的百万美元问题,是否有一种单一的技术或单一的网络爬虫可以用来抓取这些网站?我已经知道我想要的信息,这些网站的网络结构很少更新,而且这些网站中的大多数都有需要下载的文档。
或者,是否有更好的解决方案可以减少我需要构建的网络爬虫数量?此外,这些网络爬虫只会用于下载我所针对的网站的新信息。
解决方案
我建议您为每个链接抓取特定标签,例如body
, h1
, h2
, h3
, h4
, h5
, h6
, p
and...。您可以收集所有p
标签并将它们附加到特定链接中。它可用于您要抓取它们的每个标签。此外,您可以将标签的相关链接附加到数据库中。
推荐阅读
- mongodb - 密码未经过哈希处理并保存在数据库中
- python-3.x - 使用 Styleframe 将多个 pandas 数据帧保存到 Excel 文件,每个数据帧在不同的工作表上
- node.js - 为什么 CURL 没有在 Firebase 云外壳或 Firebase 功能上获得 facebook 页面?
- elasticsearch - 使用滚动 ID 查询时,Elastic Search InnerHit 不起作用并返回空白?
- tensorflow - TensorFlow 异构架构主流程
- angular - 在 Kendo UI Angular 的下拉列表中更改项目的背景
- flask - 使用 pyinstaller 从 flask-restx 生成可执行文件
- flutter - 如何在 Flutter 中重新创建此按钮?
- ionic-framework - 如何将谷歌分析与电子集成?
- python - yfinance 和 yahoo 财务数据非常不同