首页 > 解决方案 > Scrapy爬虫在增加spider并发的同时给出DNS查找错误

问题描述

我写了一个爬虫,如果我使用scrapy的默认设置,它工作得很好。我已经用 10K URL 对其进行了测试,但我有数百万个 URL 需要抓取,我也希望它更快,所以我将默认的 CONCURRENT_REQUESTS 更改为 300。前 100 个 URL 一切正常(它包含上面测试过的 10K URL ) 但突然之间其余的 URL 开始出现 DNS 查找错误。我不确定是什么导致了这个问题,似乎找到了 URL,并且它使用默认设置。

我的爬虫在具有 2 核和 4 GB RAM 的 Windows 10 机器上运行。

标签: python-3.xscrapy

解决方案


请参阅Scrapy 文档的广泛爬网页面的设置您自己的 DNS部分。


推荐阅读