首页 > 解决方案 > Jsoup 移除父元素

问题描述

我想删除包含 app_paragraph 属性的标签。

但是不应该删除孩子。

代码

String url = "https://someurl";

Connection conn = Jsoup.connect(url);

Document html = conn.get();

Elements rawContent = html.select(".writing_view_box div[style]").last().children();
rawContent.select("#dcappheader").remove();

System.out.print(rawContent);

当前输出(原始内容)

<p></p>
<div app_paragraph="Dc_App_text_0" app_editorno="0">
 <div>
  Title
 </div>
</div>
<p xss="removed"></p>
<div app_paragraph="Dc_App_Img_0" app_editorno="1">
 <img src="image_src">
</div>
<p></p>
<div app_paragraph="Dc_App_text_1" app_editorno="2"></div> 

期望输出

<p></p>
<div>
 Title
</div>
<p xss="removed"></p>
 <img src="image_src">
<p></p> 

标签: javajsouphtml-parsing

解决方案


推荐阅读