python-3.x - 需要获取包含在类中的文本
问题描述
我需要从每个中捕获文本,直到匹配结束。这个标题将在 html 中多次更改。我可以捕获所有数据,但有更好的方法吗?
<div class="box">
<a class="visual" href="https://www.example.com">
<img src="https://www.example.com/img.jpg" alt="image description">
<h2>Ventura</h2>
</a>
<div class="status-row">
<div class="service">
<span class="icon nowork"></span> No work
</div>
<div class="work">
<div class="number">0</div> Planned Work
</div>
</div>
</div>
<div class="box">
<a class="visual" href="https://www.example.com">
<img src="https://www.example.com/img.jpg" alt="image description">
<h2>Boston</h2>
</a>
<div class="status-row">
<div class="service">
<span class="icon disruption"></span> Disruptions
</div>
<div class="no-work">
<div class="number">0</div> No Work
</div>
</div>
</div>
page = requests.get(url,verify=False)
soup = BeautifulSoup(page.text, 'html.parser')
s = 'Ventura'
for x in soup.findAll("div", {"class": ["box", "status-row"]}):
z = x.get_text()
if s in z.strip():
print(z)
有一个更好的方法吗?
解决方案
推荐阅读
- python - 在数据框中:如何使用 python 从 timedelta 中同时提取分钟和秒(mm:ss)
- php - SQL 语法错误;检查与您的 MariaDB 服务器版本 f 对应的手册
- mysql - 处理多对多表中的数据
- xml - Google 的多语言 xml 站点地图示例未正确呈现
- javascript - 用 Js 重置值 ionRangeSlider
- powershell - 当它是存储帐户连接字符串时,如何使用输出变量?
- embedded-linux - STM32MP157c SPI时钟不会闲置高
- json - 尽管在 Djnago Rest 框架中的有效负载中发送,但仍需要字段
- netsuite - 客户端脚本在销售订单记录上设置行项目
- javascript - 数据表 - 当列号可能更改时,仅导出到 Excel 中的选定选项