python - 使用 Python、Requests 和 BeautifulSoup 陷入无限滚动
问题描述
我已经成功地从我的国家的几个新闻网站上抓取(python)文章,基本上是通过解析主页,获取 href 并访问它们来解析文章。但我只是碰壁了https://www.clarin.com/。由于无限滚动,我只能获得非常有限的元素。我进行了很多研究,但找不到合适的资源来克服这个问题,但当然很可能我做错了。
对于我在 devtools 中看到的加载更多的 url 请求是一个 json 文件,但我不知道如何自动获取它以解析它。我想获得一些关于如何学习的快速指导。我希望我有一些意义,这是我的基本代码:
source = requests.get( https://www.clarin.com/ ) html = BeautifulSoup(source.text, "lxml")
这是我在 chrome devtools 中看到的示例请求 url。
解决方案
推荐阅读
- php - 搜索尊重这种格式“CEC0000-0000”的任何字符串的模式是什么?
- c - 无论如何要将此值赋予我的节点
- c# - 多边形在c#中没有正确填充
- 3d - “单位”四元数和“身份”四元数有什么区别?
- r - 返回包含 r 中预定范围之外的数据的列列表
- spring-boot - spring-boot-maven-plugin:启动不识别应用程序已经启动
- asp.net - 如何在 asp.net mvc 5 中使用身份框架和代码优先方法自动为角色和用户创建表
- python - 我可以强制表达式被 numba 视为常量吗?
- php - Laravel 请求返回负载均衡器 ip 而不是客户端 ip
- phpstorm - 如何在 PhpStorm 中禁用高亮显示