web-scraping - 适当的设置以避免在抓取时阻塞

问题描述

为了抓取网站，我使用scraproxy在 2 个位置创建了一个包含 15 个代理的池。

当请求看起来可疑时，网站会自动重定向 (302) 到 reCapthca 页面。

我在scrapy中使用以下设置。我只能以相对较低的速度（5 页/分钟）抓取 741 页。

AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 30.0
AUTOTHROTTLE_MAX_DELAY = 260.0
AUTOTHROTTLE_DEBUG = True
DOWNLOAD_DELAY = 10
BLACKLIST_HTTP_STATUS_CODES = [302]

任何提示如何避免列入黑名单？似乎增加代理的数量可以解决这个问题，但也许在设置上也有改进的空间。

标签： web-scrapingscrapy

如果您负担得起，Crawlera可能是最好的选择。

但是，根据保护类型，使用Splash可能就足够了。

web-scraping - 适当的设置以避免在抓取时阻塞

问题描述

解决方案

推荐阅读