html - Postgres:在 html blob 中搜索可见文本
问题描述
我有一个 postgresql 表,它在文本字段中包含 100,000 多行缓存的 HTML。我需要一种搜索该 HTML 的方法,但仅限于将该 HTML 发送到浏览器时对用户可见的项目。
我研究了 xpath,但使用 XMLPARSE 解析 HTML 会引发错误(因为 HTML 并不总是“格式良好的 XML”)。我也研究过使用正则表达式,但发现了很多原因(这里是堆栈溢出)为什么通过正则表达式搜索 HTML 不能很好地工作。
想法?
解决方案
我将通过删除所有标签来预处理该列:
regexp_replace(col, '<[^>]*>', '', 'g')
推荐阅读
- ios - 如何动态跟踪场景中的 SCNNode 以进行删除?
- python - 分类器之间比较的评估指标
- twig - 将条目发布日期格式更改为 DD:MM:YYYY
- excel - 使用相对参考将公式从 [1,X] 范围复制到 [Y,X] 范围
- python - 使用神秘来解决不等式系统
- spring - 在 Maven 构建中有效解决 501 HTTPS 所需错误以将(http://repo1.maven.org/maven2 和 http://repo.spring.io)移动到 HTTPS?
- c++ - C ++中的字符和整数?
- c++ - 具有 const 属性的不可变类
- ios - Apple 使用 SDWebImage 在 iOS 上阻止 Xamarin 应用程序
- javascript - 未捕获(承诺中)错误:既没有在给定选项中指定“发件人”地址,也没有在默认选项中指定