作为
没有该部门的内容?
,python,beautifulsoup,python-requests"/>

首页 > 解决方案 > BeautifulSoup 输出

作为
没有该部门的内容?

问题描述

我正在尝试使用 beautifulsoup 从网站上抓取一些信息,但输出与网页 html 不同。我试图从网页中取出的内容在

<div class="page-content">

但在我的 beautifulsoup 对象中,它显示为:

<div class="page-content loading"></div>

没有任何内容包含在该部门中。无论如何,我试图找到我正在寻找的东西,但它一无所获。我还尝试了 html5lib 和 lxml 解析器,但这并没有改变输出。浏览器是否运行某种 javascript 代码,阻止我获取完整的网页 html 或其他内容?我是新手,所以任何建议都将不胜感激。

这是我的脚本:

URL = 'https://zone4.ca/race/2020-11-08/c91ec8f6/results'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')

results = soup.find_all("div", class_="racer-row")

print(results)
print(soup)

标签: pythonbeautifulsouppython-requests

解决方案


是的,它肯定会通过 javascript 查询加载内容。您可以复制这些查询的内容(标头、有效负载等)并通过requests库手动发送它们,或者(更好的 imo)使用浏览器模拟驱动程序selenium来抓取动态页面。


推荐阅读