首页 > 解决方案 > 如何使用 Xpath 和 SOLR 索引 HTML 中的特定标签

问题描述

为了避免数据重复,我打算只存储一个爬网的 HTML 文件,但在索引时通过 SOLR 中的过滤器或函数使用 Xpath 解析 HTML。

html 本身没有被索引,而是被转换为 solr 将使用 Xpath 索引的字段。

我是 SOLR 的新手,但我可以想象我应该能够做类似的事情:

  1. 调用数据库索引 URL
  2. 在 SOLR 中注册一个过滤器,获取每条记录并将其转换为多个字段。

谢谢,如果你有任何信息。

标签: solr

解决方案


推荐阅读