solr - 如何使用 Xpath 和 SOLR 索引 HTML 中的特定标签
问题描述
为了避免数据重复,我打算只存储一个爬网的 HTML 文件,但在索引时通过 SOLR 中的过滤器或函数使用 Xpath 解析 HTML。
html 本身没有被索引,而是被转换为 solr 将使用 Xpath 索引的字段。
我是 SOLR 的新手,但我可以想象我应该能够做类似的事情:
- 调用数据库索引 URL
- 在 SOLR 中注册一个过滤器,获取每条记录并将其转换为多个字段。
谢谢,如果你有任何信息。
解决方案
推荐阅读
- python - 具有相同名称和数据的熊猫数据框合并列以逗号分隔
- python - 在 Matplotlib 上更改 3D 绘图的纵横比
- java - 如何从另一个通过 Bungeecord 运行的 Paper Spigot 服务器获取玩家数量
- swift - 在 Swift 中是否可以同时返回一个 Int 和一个 int 列表?
- android - 在开发中反应原生应用程序时如何在移动设备中加载本地主机图像?
- javascript - AngularJS - ng 指令的设置方式是否与自定义指令相同?
- c# - winforms - 在另一个网格框中的选定项目上自动刷新网格框
- python - python套接字模块中的未定义名称错误
- python - 如何使用 pytest 运行 python 的跟踪?
- r - 如何将 xts zoo 对象中的列组合到 table 对象?