首页 > 解决方案 > 在 Scrapy Python 中实现分块抓取页面

问题描述

我正在尝试在Scrapy中抓取网页,但要分块。目标只是阅读页面的标题,而不是整页。

前任。如果我的页面大小为 150KB,但我只想阅读必须在上部且小于 10KB 页面大小的标题,所以如果我阅读第一部分,我会找到标题并取消剩余的页面抓取

是否可以在 Scrapy 中实现某些东西,以便分块阅读页面?

标签: pythonweb-scrapingscrapy

解决方案


Scrapy 目前不支持在响应完成之前停止读取响应。

您可能想要监控一些相关的现有功能请求:

创建一个专注于您的场景的新功能请求也可能有意义,因为您希望停止读取响应但仍然在回调中获取到目前为止读取的数据,我认为现有功能请求中没有涵盖这些数据。


推荐阅读