首页 > 解决方案 > 使用 Solr 搜索发布文件爬虫索引 html 文件的发布日期

问题描述

我已经安装了 solr search,并且正在使用带有管理模式的 _default 配置集。我正在使用文件系统爬虫来爬取各种类型的各种文件:

./post -c core -filetypes pdf,doc,docx,ppt,pptx,xls,xlsx,htm,html /index/file/location/

在搜索我的索引时,我注意到文档类型文件(doc、pdf 等)在结果集中有一个日期值,如下所示:

"date":["2021-11-15T12:00:00Z"],

但是,已爬网的 HTML 文件都没有包含在结果集中的日期值。

我已经查看了解析器和配置以及托管模式文件,但我无法确定为什么 html 文件在所有文档都返回时没有返回日期值。

我在 Solr 7.7.3 上使用开箱即用的 solr 托管模式

感谢您的任何时间,并帮助我在这个问题上指出正确的方向。

标签: htmldatesolrlucene

解决方案


推荐阅读