python-3.x - Scrapy爬虫在增加spider并发的同时给出DNS查找错误

首页 > 解决方案 > Scrapy爬虫在增加spider并发的同时给出DNS查找错误

问题描述

我写了一个爬虫，如果我使用scrapy的默认设置，它工作得很好。我已经用 10K URL 对其进行了测试，但我有数百万个 URL 需要抓取，我也希望它更快，所以我将默认的 CONCURRENT_REQUESTS 更改为 300。前 100 个 URL 一切正常（它包含上面测试过的 10K URL ) 但突然之间其余的 URL 开始出现 DNS 查找错误。我不确定是什么导致了这个问题，似乎找到了 URL，并且它使用默认设置。

我的爬虫在具有 2 核和 4 GB RAM 的 Windows 10 机器上运行。

标签： python-3.xscrapy

解决方案

请参阅Scrapy 文档的广泛爬网页面的设置您自己的 DNS部分。

python-3.x - Scrapy爬虫在增加spider并发的同时给出DNS查找错误

问题描述

解决方案

推荐阅读