首页 > 解决方案 > 如何获取nutch+solr爬取和索引的文档的最后修改时间或创建时间?

问题描述

需要获取nutch+solr爬取和索引的某个内网下文档的最后修改时间或创建时间?我尝试使用 Metadata.LAST_MODIFIED 字段,但它返回 null。我在显示搜索结果时需要它们。Date 正在返回爬行的日期。我在这方面不是很有经验,所以欢迎任何帮助!非常感谢。问候,亚历克斯

标签: solrweb-crawlerdocumentnutchlast-modified

解决方案


您测试的 URL 很可能没有返回 Last-Modified 响应标头。大多数网页不返回此信息。由于它在您的 Intranet 中,我建议使用一些工具(例如 Chrome 开发人员工具的网络监视器)对其进行测试,以查看是否实际返回了标头。


推荐阅读