首页 > 解决方案 > 如何
使用 BeautifulSoup 分割段落?

问题描述

我有一个 HTML 源文件,其中段落内有<br>标签(或其他块标签)。我需要通过此中断将父块标签拆分为多个相同类型的标签。例如,

<p>
First block of text
<br>
Second block of text
</p>

应拆分为:

<p>
First block of text
</p>
<p>
Second block of text
</p>

简单replaceWith("</p><p>")不起作用,因为此文本已转义。

但是,当 位于<br>另一个标签(例如<span></span>)内时,有一个极端情况:

<p>
First block of text
<span>
<br>
</span>
Second block of text
</p>

我不确定这是否是有效的 HTML,但如果是(是吗?),我仍然需要将 paragtaph 拆分为有效的 HTML。

最好的和惯用的方法是什么?

标签: pythonhtmlbeautifulsoup

解决方案


推荐阅读