首页 > 解决方案 > Python - Beautiful Soup - 删除
标记前的值

问题描述

我在一个用 br 分隔的标签中有数据,我试图弄清楚如何删除 br 标签之前的所有值并且遇到困难。

这是我的数据的示例:

<td>
  ValueToBeDeleted
  <br>
  <br/> ValueToKeep
</td>

因此,我试图保留“ValueToKeep”,并为我正在处理的数据删除 TD 标记中的先前值。此外,我的数据文件有数百个需要清理的 TD 标签,因此我也在寻找迭代解决方案。有任何想法吗?

标签: pythonbeautifulsoup

解决方案


也许:

text = text.split('<br/>')[-1]
print(text.replace('</td>','').strip())

使用 BS4 BeautifulSoup:

from bs4 import BeautifulSoup as soup
soup_ = soup(html,'html.parser')
soup_ = soup_.find('td').text.split('\n')[-2]

推荐阅读