html - 如何使用 Unix 从文件中删除未使用的 html 代码
问题描述
我们有一个 HTML 源代码,它将使用 informatica 工作流程进行处理。在这两者之间,我们有一个转换文件的 Unix 脚本。
上周我们在 informatica 中收到一个错误,说格式无效,因为该文件有未使用的 html 引用(0-8,14-31 等)
例子:
� -  Unused
 -  Unused
 -  Unused
 - Ÿ Unused
来源。
我们需要在 Unix 中处理它,并在处理之前从 HTML 文件中删除上述字符。
我尝试过使用 sed 命令,例如
sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&\1/g'
但它没有达到目的。此外,由于我们有太多未使用的引用,因此也无法对其进行硬编码。
你能告诉我如何进行吗?
解决方案
这是通过将编码字符视为字符串的工作(bash)解决方案。不清楚您的源是否已编码,但如果是,则有效:
sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'
推荐阅读
- angular - Build 上的 Angular 9 错误:找不到名称 WriteStream 和 ReadStream
- ios - 使用 UISegmentedControl 来构建这样的菜单?
- flutter - 展开的小部件必须放在 Flex 小部件内
- flutter - Flutter:创建自定义的可重用小部件图像
- mysql - SQL JOIN 查询问题提供不准确的返回
- python - 如何旋转seaborn barplot x轴刻度标签
- socketcan - SocketCAN:read() 函数永远不会返回
- r - plyr 包中分类变量的平均值
- php - db的IMG路径,然后显示
- azure - 使用 Azure 资源组时购买 SendGrid Twilio 电子邮件活动源 API