首页 > 解决方案 > 给定从 Selenium webdriver 获得的 HTML 数据时,BeautifulSoup 如何从 HTML 汤中获取文本

问题描述

我正在抓取在 JS 上开发的网页。我能够从页面中获取 HTML 内容,但是当我可视化它的 BeautifulSoup 内容时,数据似乎缺少文本信息,我看到的只是脚本信息。(图片:soupstr 输出)但是,当我将 .text 显式调用到 Beautiful soup 对象时,我得到了所有文本。(图片:souptext 输出)

代码片段

图片:soupstr 输出

图片:souptext 输出

我们如何在 Python 上使用 Selenium Webdriver 获取由 HTML 标签和文本(基本上是 DOM 的副本)组成的纯 HTML 数据?

PS:对于非内联图像,我很抱歉,因为我还没有发布内联消息的声誉。

标签: pythonseleniumweb-scrapingbeautifulsoup

解决方案


你可以这样做:

soup_page = BeautifulSoup(ele_html.content,"html.parser")
print(soup_page)

推荐阅读