python - Python在html中提取表格的标题
问题描述
我有一个很大的网页,上面有一张桌子。我将使用熊猫提取表格。我很难提取标题。
<div class="col"> <p>State Name: <span class="badge badge-info1">S01-Class 8</span> | PC Name: <span class="badge badge-info1">1-John </span></p> <div class="clearfix">
我怎样才能只提取S01-Class 8
和1-John
?我的桌子跟在这堂课后面。
解决方案
你可以试试lxml
:
from lxml import html
tree = html.fromstring(html_text)
eles = tree.xpath('//span[@class="badge badge-info1"]')
for e in eles:
print(e.text) # S01-Class 8, 1-John
推荐阅读
- raku - 捕获和解析 Whatable 机器人的输出
- utf-8 - 将响应 cmd 解码为 utf-8
- java - 从测试启动一个弹簧启动应用程序
- angular - ng-select inside 对话框添加额外的隐藏高度
- ruby-on-rails - 弹性搜索+搜索
- css - 如何在 .angular-cli.json angular 5 中添加 css 媒体查询
- android-studio - Android Studio 3.2 Canary 14 Github 集成
- excel - 如果单元格和语句
- c# - C# - 具有托管服务标识的 Azure 存储
- java - 仅解析 html 正文外部文本