首页 > 解决方案 > Scrapy:仅在爬取时不处理或不允许获取 HTTP 状态码

问题描述

尝试抓取网站时出现上述错误。SO上有很多类似问题的帖子,最值得注意的是这个:Scrapy:HTTP状态代码未处理或不允许?建议更改用户代理以防止此错误。但是,我的问题有点不同。我确实更改了用户代理,但我仍然无法运行scrapy crawl spidername命令,但我能够scrapy shell "website.com"毫无问题地运行,我什至能够从 shell 内的网站获取响应并解析 html。该错误仅在我尝试运行crawl命令时发生。

可能是什么问题?这是我的错误信息:

在此处输入图像描述

我什至能够spider从外壳内部运行对象而不会出现任何错误。 在此处输入图像描述

标签: scrapyweb-crawler

解决方案


这可能听起来很奇怪,但从 url 中删除尾部斜杠并且它可以工作

使用此https://www.cigabuy.com/consumer-electroincs-c-56_75.html

而不是这个https://www.cigabuy.com/consumer-electroincs-c-56_75.html/


推荐阅读