首页 > 解决方案 > Postgres:在 html blob 中搜索可见文本

问题描述

我有一个 postgresql 表,它在文本字段中包含 100,000 多行缓存的 HTML。我需要一种搜索​​该 HTML 的方法,但仅限于将该 HTML 发送到浏览器时对用户可见的项目。

我研究了 xpath,但使用 XMLPARSE 解析 HTML 会引发错误(因为 HTML 并不总是“格式良好的 XML”)。我也研究过使用正则表达式,但发现了很多原因(这里是堆栈溢出)为什么通过正则表达式搜索 HTML 不能很好地工作。

想法?

标签: htmlpostgresqlsearch

解决方案


我将通过删除所有标签来预处理该列:

regexp_replace(col, '<[^>]*>', '', 'g')

推荐阅读