java - 如何修复 HTML 片段中悬挂的 html 标签?
问题描述
我从外部来源获得了一个可能不正确的 HTML 片段:
<p>Include all the information someone would need to answer your <i><i>question<p>
如何确保在更大的 HTML 文档中呈现安全,关闭 Java 中所有悬挂的 HTML 标记?
解决方案
您可以通过编写自己的 Java 自定义解析器并修复标签来实现这一点。Idea 会是这样,获取所有打开的标签并在字符串中找到其相关的结束标签。如果没有找到结束标签,您可以替换为。
您需要处理重复和 pre , post 有效标签。
否则,您可以尝试这个有助于实现这一目标的开源便捷解析。 http://java-source.net/open-source/html-parsers
http://htmlcleaner.sourceforge.net/看起来不错的选择。希望这可以帮助。
推荐阅读
- javascript - Svelte:使组件对变量反应(重新渲染)
- android - SecurityException: 未能找到用户 0 的提供程序 com.package.name.provider ....;在 API 级别 30
- mysql - UPDATE tbl SET name = REGEXP_REPLACE(`name`,[:digit:],'')
- bash - 如何为配置文件中的属性赋值
- google-apps-script - 如何将 Charts.Chart 嵌入到 Google 表格(脚本应用程序)
- javascript - 映射嵌套的对象数组
- c# - 从 OPC UA 服务器读取结构化数据
- python - 可变数量的线程
- r - R car::Anova 的更快替代方案,用于预测变量子集的平方叉积矩阵计算总和
- javascript - 检查对象键是否为空