python-3.x - Scrapy爬虫在增加spider并发的同时给出DNS查找错误
问题描述
我写了一个爬虫,如果我使用scrapy的默认设置,它工作得很好。我已经用 10K URL 对其进行了测试,但我有数百万个 URL 需要抓取,我也希望它更快,所以我将默认的 CONCURRENT_REQUESTS 更改为 300。前 100 个 URL 一切正常(它包含上面测试过的 10K URL ) 但突然之间其余的 URL 开始出现 DNS 查找错误。我不确定是什么导致了这个问题,似乎找到了 URL,并且它使用默认设置。
我的爬虫在具有 2 核和 4 GB RAM 的 Windows 10 机器上运行。
解决方案
请参阅Scrapy 文档的广泛爬网页面的设置您自己的 DNS部分。
推荐阅读
- php - Yii2 - 从 URL 中删除默认模块控制器
- r - 根据三个类别中的最高相似度匹配来自 2 个组的人
- python - ipopt 缺少 cyggcc_s-1.dll 和 cyggfortran-3.dll
- c++ - 在 C++ 中监控命名管道 (FIFO) 中的数据
- android - Kotlin Coroutines,饼图不旋转
- r - 如何根据 R 中的 url 拆分字符行
- arrays - 从c中的函数返回数组时,静态数组声明和指针数组声明有什么区别
- python - 如何检查通过Django中模型类的变量?
- go - 什么是rand的碰撞。阅读
- javascript - 如何修复“无法读取未定义的属性'get'”