python - 给定从 Selenium webdriver 获得的 HTML 数据时,BeautifulSoup 如何从 HTML 汤中获取文本
问题描述
我正在抓取在 JS 上开发的网页。我能够从页面中获取 HTML 内容,但是当我可视化它的 BeautifulSoup 内容时,数据似乎缺少文本信息,我看到的只是脚本信息。(图片:soupstr 输出)但是,当我将 .text 显式调用到 Beautiful soup 对象时,我得到了所有文本。(图片:souptext 输出)
我们如何在 Python 上使用 Selenium Webdriver 获取由 HTML 标签和文本(基本上是 DOM 的副本)组成的纯 HTML 数据?
PS:对于非内联图像,我很抱歉,因为我还没有发布内联消息的声誉。
解决方案
你可以这样做:
soup_page = BeautifulSoup(ele_html.content,"html.parser")
print(soup_page)
推荐阅读
- javascript - 将 div 动态附加到另一个 div
- visual-studio - 用于 Dotnetcore 功能的 Visual Studio 2019 应用程序参数
- arrays - 导入 .csv 文件时遇到问题
- java - Log4j 的 rollingPolicy.FileNamePattern 也在更改压缩文件的名称
- python - Discord bot 中的错误:Bot 没有属性“_default_help_command”
- r - 将向量传递给具有 R 中索引的 data.table
- python - 根据字典值过滤 DataFrame
- sql - 具有行号 sql 的新列
- java - Spring Boot Data 控制台应用程序
- node.js - Mongoose - 从精益中删除 _id (使用 toJSON() ?)