python - 无法使用 Scrapy 从彭博网站抓取数据
问题描述
嗨,我只是想在这个网站上刮掉“标题”和“发布日期”,我确信我使用的是正确的 response.xpath,但它总是没有。
response.xpath("//h1[@class = 'lede-text-v2__hed']").extract_first()
response.xpath("//meta[@property = 'og:title']/@content").extract_first()
两个我都拿不到标题
也在发布日期
response.xpath("//time[@class = 'article-timestamp']/@datetime").extract_first()
它没有得到任何想法,请知道吗?
这是网址
https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker
谢谢!
解决方案
您被检测为机器人。
使用scrapy shell <url>
和view(response)
查看您收到的回复。
避免被发现的措施包括:
如果您负担得起,请使用智能代理。
尝试使您的请求与您的网络浏览器的请求更相似。
使用飞溅。
在后两种情况下,请准备好使用多个代理,以防它们由于意外的高活动而禁止您的 IP 地址。
推荐阅读
- python - 为什么我不能在 for 循环中将两个列表解压缩为格式字符串?
- intellij-idea - 我无法让 Intellij 上的 Glassfish 服务器运行
- c++ - 传递给 std::function 模板的模板参数究竟代表什么?
- javascript - 使用 CSS 或 JavaScript 的 Chrome 样式拼写检查错误
- python - 如何为以下结果编写 Sparql 查询?
- python - 为什么 TypedDict 与匹配 Mapping 不兼容?
- ionic-framework - Ionic 4 弹出窗口显示在屏幕末尾
- r - 为什么 Dplyr group_by 不尊重 .drop=FALSE
- c# - ASP.MVC 模型到 JS 对象并返回到 C#
- authentication - 如何获取我自己的用户帐户详细信息?