html - 使用 Solr 搜索发布文件爬虫索引 html 文件的发布日期
问题描述
我已经安装了 solr search,并且正在使用带有管理模式的 _default 配置集。我正在使用文件系统爬虫来爬取各种类型的各种文件:
./post -c core -filetypes pdf,doc,docx,ppt,pptx,xls,xlsx,htm,html /index/file/location/
在搜索我的索引时,我注意到文档类型文件(doc、pdf 等)在结果集中有一个日期值,如下所示:
"date":["2021-11-15T12:00:00Z"],
但是,已爬网的 HTML 文件都没有包含在结果集中的日期值。
我已经查看了解析器和配置以及托管模式文件,但我无法确定为什么 html 文件在所有文档都返回时没有返回日期值。
我在 Solr 7.7.3 上使用开箱即用的 solr 托管模式
感谢您的任何时间,并帮助我在这个问题上指出正确的方向。
解决方案
推荐阅读
- android - Login时后台并发复制GC
- python - python curve_fit() 错误消息只有大小为 1 的数组可以转换为 python 标量
- c++ - 遍历对象数组 C++
- c++ - “再次运行(y/n)”的 C++ while 循环打印 couts 两次
- vscode-settings - VS 代码设置
- javascript - Javascript继承单例模式和静态属性和父类
- ruby-on-rails - Github-Linguist,Ruby 版本在多个存储库上运行?
- r - R cut 超越边界的漂亮打印值
- crash - 使用`Video`的iOS15 Webview会导致崩溃-`WebAVPlayerController valueForUndefinedKey-playingOnMatchPointDevice`
- typescript - 泛型不能内外混用?