首页 > 解决方案 > 提取body的属性,同时保留相对标签

问题描述

我正在尝试遍历 HTML 正文,以查找所有<h1>标签:

Element body = docJSoup.body();
Elements mainCmp = body.select("h1");

所以,考虑到这个身体的片段:

<h1><span style='mso-bookmark:_Toc283737133'><span
style='mso-spacerun:yes'></span><span style='mso-spacerun:yes'></span><a
name="_Toc35343186"></a><a name="_Toc264704629"></a><span style='mso-bookmark:
_Toc35343186'>3<span style='mso-tab-count:1'></span>Aspetti metodologici</span></span></h1>

我要得到这个:

<span style="mso-bookmark:_Toc283737133"><span style="mso-spacerun:yes"></span><span style="mso-spacerun:yes"></span><a name="_Toc35343186"></a><a name="_Toc264704629"></a><span style="mso-bookmark:
_Toc35343186">3<span style="mso-tab-count:1"></span>Aspetti metodologici</span></span>

顺便说一句,我还想将<h1>标签保留到结果中。而且<h1>标签本身也可以有其他属性,所以我不能只连接"<h1>"到结果字符串。有没有办法使用 JSoup 方法保留它?

感谢您的任何见解。

标签: javahtmljsoup

解决方案


outerHtml()将为您提供节点的标记,包括它自己的开始和结束标记。


推荐阅读