首页 > 解决方案 > 无法使用 Scrapy 从彭博网站抓取数据

问题描述

嗨,我只是想在这个网站上刮掉“标题”和“发布日期”,我确信我使用的是正确的 response.xpath,但它总是没有。

response.xpath("//h1[@class = 'lede-text-v2__hed']").extract_first()
response.xpath("//meta[@property = 'og:title']/@content").extract_first()

两个我都拿不到标题

也在发布日期

response.xpath("//time[@class = 'article-timestamp']/@datetime").extract_first()

它没有得到任何想法,请知道吗?

这是网址

https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker

谢谢!

标签: pythonscrapy

解决方案


您被检测为机器人。

使用scrapy shell <url>view(response)查看您收到的回复。

避免被发现的措施包括:

  • 如果您负担得起,请使用智能代理。

  • 尝试使您的请求与您的网络浏览器的请求更相似。

  • 使用飞溅。

在后两种情况下,请准备好使用多个代理,以防它们由于意外的高活动而禁止您的 IP 地址。


推荐阅读