java - 提取body的属性,同时保留相对标签
问题描述
我正在尝试遍历 HTML 正文,以查找所有<h1>
标签:
Element body = docJSoup.body();
Elements mainCmp = body.select("h1");
所以,考虑到这个身体的片段:
<h1><span style='mso-bookmark:_Toc283737133'><span
style='mso-spacerun:yes'></span><span style='mso-spacerun:yes'></span><a
name="_Toc35343186"></a><a name="_Toc264704629"></a><span style='mso-bookmark:
_Toc35343186'>3<span style='mso-tab-count:1'></span>Aspetti metodologici</span></span></h1>
我要得到这个:
<span style="mso-bookmark:_Toc283737133"><span style="mso-spacerun:yes"></span><span style="mso-spacerun:yes"></span><a name="_Toc35343186"></a><a name="_Toc264704629"></a><span style="mso-bookmark:
_Toc35343186">3<span style="mso-tab-count:1"></span>Aspetti metodologici</span></span>
顺便说一句,我还想将<h1>
标签保留到结果中。而且<h1>
标签本身也可以有其他属性,所以我不能只连接"<h1>"
到结果字符串。有没有办法使用 JSoup 方法保留它?
感谢您的任何见解。
解决方案
outerHtml()
将为您提供节点的标记,包括它自己的开始和结束标记。
推荐阅读
- android - 颤振错误:在 null 上调用了 getter 'length'
- ruby - 尽管已定义,但无法为 ActivitiesController 找到操作“destroy”
- xcode - 我在 Xcode 中看不到我所属的团队
- php - PHP函数:将csv字段值拆分为姓名和姓氏
- javascript - reactjs:setState 在一个调用一次的函数中被调用两次?为什么?
- java - Spring Security:为身份验证失败添加自定义消息(“Bad Credentials”到“Invalid Credentials”)
- javascript - Vue 在 v-if 参数更改时不更新相同类型的组件
- graphviz - 我如何保证一个graphviz集群总是在最后?
- java - 高负载系统的Java Stream API功能接口优化
- r - 在 r 中创建具有分组均值的列