首页 > 解决方案 > 如何使用 Unix 从文件中删除未使用的 html 代码

问题描述

我们有一个 HTML 源代码,它将使用 informatica 工作流程进行处理。在这两者之间,我们有一个转换文件的 Unix 脚本。

上周我们在 informatica 中收到一个错误,说格式无效,因为该文件有未使用的 html 引用(0-8,14-31 等)

例子:

� -    Unused
 -    Unused
 -    Unused
 - Ÿ Unused

来源

我们需要在 Unix 中处理它,并在处理之前从 HTML 文件中删除上述字符。

我尝试过使用 sed 命令,例如

sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&\1/g'

但它没有达到目的。此外,由于我们有太多未使用的引用,因此也无法对其进行硬编码。

你能告诉我如何进行吗?

标签: htmlunixawksedunused-variables

解决方案


这是通过将编码字符视为字符串的工作(bash)解决方案。不清楚您的源是否已编码,但如果是,则有效:

sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'

推荐阅读