首页 > 解决方案 > 使用 Python、Requests 和 BeautifulSoup 陷入无限滚动

问题描述

我已经成功地从我的国家的几个新闻网站上抓取(python)文章,基本上是通过解析主页,获取 href 并访问它们来解析文章。但我只是碰壁了https://www.clarin.com/。由于无限滚动,我只能获得非常有限的元素。我进行了很多研究,但找不到合适的资源来克服这个问题,但当然很可能我做错了。

对于我在 devtools 中看到的加载更多的 url 请求是一个 json 文件,但我不知道如何自动获取它以解析它。我想获得一些关于如何学习的快速指导。我希望我有一些意义,这是我的基本代码:

source = requests.get( https://www.clarin.com/ ) html = BeautifulSoup(source.text, "lxml")

这是我在 chrome devtools 中看到的示例请求 url。

https://www.clarin.com/ondemand/eyJtb2R1bGVDbGFzcyI6IkNMQUNsYXJpbkNvbnRhaW5lckJNTyIsImNvbnRhaW5lcklkIjoidjNfY29sZnVsbF9ob21lIiwibW9kdWxlSWQiOiJtb2RfMjAxOTYyMjQ4OTE0MDgzIiwiYm9hcmRJZCI6IjEiLCJib2FyZFZlcnNpb25JZCI6IjIwMjAwNDMwXzAwNjYiLCJuIjoiMiJ9.json

标签: pythonweb-scrapingbeautifulsouppython-requestsinfinite-scroll

解决方案


推荐阅读