python - Robotparser 返回错误的结果?
问题描述
我正在测试这个网站:
from urllib import robotparser
rp = robotparser.RobotFileParser()
rp.set_url("https://www.dealstreetasia.com/robots.txt")
rp.read()
rp.can_fetch("*", "https://www.dealstreetasia.com/?s=travel")
它返回“True”,但正如我从robot.txt 中猜测的那样,它必须返回“False”Robots.txt,如下所示: User-agent: * Disallow: /wp-admin/ Disallow: / ?s= Disallow: /search/禁止:/tag/ 禁止:/feed/ 禁止:/user/ 允许:/user/plans 允许:/user/newsletters 抓取延迟:1
你能给我一些关于这个案子的建议吗?谢谢!
解决方案
推荐阅读
- c - 为什么我的客户端-服务器解决方案的服务器会立即关闭连接?
- git - SVN 到 Git 迁移 - 使用一个主干处理多个项目
- arduino - 尝试使用 Arduino 在 ESP8266 上使用未知协议从遥控器复制 IR 信号
- c++ - 如何进行并行双线性插值
- reactjs - 大量输入 React-native 后 TextInput 变慢
- python - 替换保存在列表中的 url 上的日期
- angularjs - 如何获取搜索框的输入值并在AngularJs组件中使用Enter键输入
- mysql - 从 0:00:00 开始的分钟类型值
- c++ - 与具有来自 cin 的 setter 和指向对象的指针的默认构造函数相关的 OOP 问题不返回名称
- r - 当两个数据帧的列和行不同时,left_join 和 rows_update 的 tidyverse 替代方案