web-scraping - 适当的设置以避免在抓取时阻塞
问题描述
为了抓取网站,我使用scraproxy在 2 个位置创建了一个包含 15 个代理的池。
当请求看起来可疑时,网站会自动重定向 (302) 到 reCapthca 页面。
我在scrapy中使用以下设置。我只能以相对较低的速度(5 页/分钟)抓取 741 页。
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 30.0
AUTOTHROTTLE_MAX_DELAY = 260.0
AUTOTHROTTLE_DEBUG = True
DOWNLOAD_DELAY = 10
BLACKLIST_HTTP_STATUS_CODES = [302]
任何提示如何避免列入黑名单?似乎增加代理的数量可以解决这个问题,但也许在设置上也有改进的空间。
解决方案
推荐阅读
- node.js - 处理来自 UI 请求的空数组参数
- excel - 在 VBA 中插入带变量的公式
- scala - 在函数 scala 中传递 DEFAULTS 参数
- php - 当通过 ajax 生成内容时,tablesorter JS 不起作用
- reactjs - 如何避免在更改 redux 状态后重新渲染 10000 个 imageComponent?
- azure-active-directory - 如何使用 Microsoft Graph 客户端 SDK(C#) 重置密码?
- c# - 如何获取列表中最大元素的索引
- php - PHP关于将图像更改更新为默认值
- c# - 如何使用实体框架数据库优先代码创建 SQL Server 数据库?
- c# - ASP.NET中的FileUpload,上传文件的路径是什么。