python - 在 Scrapy Python 中实现分块抓取页面
问题描述
我正在尝试在Scrapy中抓取网页,但要分块。目标只是阅读页面的标题,而不是整页。
前任。如果我的页面大小为 150KB,但我只想阅读必须在上部且小于 10KB 页面大小的标题,所以如果我阅读第一部分,我会找到标题并取消剩余的页面抓取。
是否可以在 Scrapy 中实现某些东西,以便分块阅读页面?
解决方案
Scrapy 目前不支持在响应完成之前停止读取响应。
您可能想要监控一些相关的现有功能请求:
创建一个专注于您的场景的新功能请求也可能有意义,因为您希望停止读取响应但仍然在回调中获取到目前为止读取的数据,我认为现有功能请求中没有涵盖这些数据。
推荐阅读
- python - Pytorch相当于tensorflow keras StringLookup?
- javascript - 使用行为平滑的 window.scrollTo 时避免处理 IntersectionObserver
- audio - 如何在频谱图中找到音符范围?
- laravel - Pusher HTTP 获取 user_count
- python - 使用 If-Else 阶梯查找输入的四个数字中的最大值
- linux - 如何在 GNU 和 BSD make 中包含 bsd.prog.mk?
- node.js - 将数组作为字段 v13 的值会产生错误
- wolfram-mathematica - 如何格式化 Wolfram Mathematica 中分类器使用的数据
- javascript - 为什么即使我实现了componentWillUnmount,我的组件也没有卸载?
- python - 使用 timeseriessplit 函数拆分时间序列数据