scrapy - Scrapy:仅在爬取时不处理或不允许获取 HTTP 状态码
问题描述
尝试抓取网站时出现上述错误。SO上有很多类似问题的帖子,最值得注意的是这个:Scrapy:HTTP状态代码未处理或不允许?建议更改用户代理以防止此错误。但是,我的问题有点不同。我确实更改了用户代理,但我仍然无法运行scrapy crawl spidername
命令,但我能够scrapy shell "website.com"
毫无问题地运行,我什至能够从 shell 内的网站获取响应并解析 html。该错误仅在我尝试运行crawl
命令时发生。
可能是什么问题?这是我的错误信息:
解决方案
这可能听起来很奇怪,但从 url 中删除尾部斜杠并且它可以工作
使用此https://www.cigabuy.com/consumer-electroincs-c-56_75.html
而不是这个https://www.cigabuy.com/consumer-electroincs-c-56_75.html/
推荐阅读
- python-3.x - Python 列表过滤删除太多
- go - 如何在 Hyperledger Fabric 上的嵌套结构上处理复杂数据类型?
- python - 预期的浏览器二进制位置,但无法在默认位置找到二进制文件,未提供“moz:firefoxOptions.binary”功能
- git - 在测试阶段 gitlab-ci.yml 失败?
- flutter - Flutter 从 List 动态创建 RichText 对象
- python - 来自 build_absolute_uri() 问题的 url 不匹配:双斜杠
- php - 是否可以通过 Dockerfile 运行 bash 脚本并在 docker-compose up -d 之后保持容器运行?
- java - 通用 gRPC Java 客户端 - 现有实现
- excel - VBA使用动态数组过滤数据透视表
- python - Numpy einsum 给出错误:用于折叠索引“q”的操作数 0 中的尺寸不匹配(4!= 2)