首页 > 解决方案 > 适当的设置以避免在抓取时阻塞

问题描述

为了抓取网站,我使用scraproxy在 2 个位置创建了一个包含 15 个代理的池。

当请求看起来可疑时,网站会自动重定向 (302) 到 reCapthca 页面。

我在scrapy中使用以下设置。我只能以相对较低的速度(5 页/分钟)抓取 741 页。

AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 30.0
AUTOTHROTTLE_MAX_DELAY = 260.0
AUTOTHROTTLE_DEBUG = True
DOWNLOAD_DELAY = 10
BLACKLIST_HTTP_STATUS_CODES = [302]

任何提示如何避免列入黑名单?似乎增加代理的数量可以解决这个问题,但也许在设置上也有改进的空间。

标签: web-scrapingscrapy

解决方案


如果您负担得起,Crawlera可能是最好的选择。

但是,根据保护类型,使用Splash可能就足够了。


推荐阅读