首页 > 解决方案 > 使用 nutch 中的 solrindexing 作业查找 solr 中已存在文档的数量

问题描述

在 nutch 中,在 solrindex 作业中,我们如何计算 solr 中已更新的文档数以及已索引为新文档的文档数。

标签: solrnutch2

解决方案


您可以使用它来查看统计信息和状态(fetched、not_modified、gone...)

bin/nutch readdb crawl/crawldb/ -stats

或者你可以转储 crawldb 以查看所有已爬取的 url 及其状态

bin/nutch readdb crawl/crawldb/ -dump whole_db
vi whole_db/part-r-00000

推荐阅读