首页 > 解决方案 > 如何修复 HTML 片段中悬挂的 html 标签?

问题描述

我从外部来源获得了一个可能不正确的 HTML 片段:

<p>Include all the information someone would need to answer your <i><i>question<p>

如何确保在更大的 HTML 文档中呈现安全,关闭 Java 中所有悬挂的 HTML 标记?

标签: javahtml

解决方案


您可以通过编写自己的 Java 自定义解析器并修复标签来实现这一点。Idea 会是这样,获取所有打开的标签并在字符串中找到其相关的结束标签。如果没有找到结束标签,您可以替换为。

您需要处理重复和 pre , post 有效标签。

否则,您可以尝试这个有助于实现这一目标的开源便捷解析。 http://java-source.net/open-source/html-parsers

http://htmlcleaner.sourceforge.net/看起来不错的选择。希望这可以帮助。


推荐阅读