python - 如何判断网站是否阻止了我的抓取代码
问题描述
我正在学习网络抓取,并且我编写了一些代码,这些代码使用 Python 和 Beautiful Soup 4 从autotrader.co.uk抓取信息。有时代码会停止然后崩溃。该错误消息与应填充为空的列表有关。
崩溃后,我尝试在浏览器中手动访问该网站,但页面永远不会打开。如果我稍后再试,它会正常打开。
所以我猜该网站不喜欢我在短时间内访问它太多并暂时阻止我或类似的东西。
我的问题是,有没有办法可以明确地检查阻止我请求的网站是否是问题所在?另外,有没有办法解决这个问题?也许通过在请求之间引入延迟?
解决方案
您可以查看您收到的回复:
import requests
url = 'https://www.autotrader.co.uk/'
response=requests.get(url)
print (response)
输出:
<Response [200]>
查看此处编码的响应以获取想法
推荐阅读
- javascript - 仅当用户完成输入并等待 n 秒时,如何在自定义自动完成中触发 ajax 调用
- ios - Firebase 实时数据库,检查 firebase 数据库值是否存在?
- javascript - 如何比较验证码变量
- regex - 匹配函数内的字符串
- javascript - 多次使用同一脚本导致功能错误
- php - Nginx 拒绝不阻止动态 URL
- php - Wordpress - 更改“登录以回复”URL
- mysql - 选择查询中的平均值、计数、分组依据
- spring - @RequestParam 使用管道忽略变量
- python - 如何在 Matplotlib 中使用时间范围限制水平线