solr - 使用 nutch 中的 solrindexing 作业查找 solr 中已存在文档的数量
问题描述
在 nutch 中,在 solrindex 作业中,我们如何计算 solr 中已更新的文档数以及已索引为新文档的文档数。
解决方案
您可以使用它来查看统计信息和状态(fetched、not_modified、gone...)
bin/nutch readdb crawl/crawldb/ -stats
或者你可以转储 crawldb 以查看所有已爬取的 url 及其状态
bin/nutch readdb crawl/crawldb/ -dump whole_db
vi whole_db/part-r-00000
推荐阅读
- tibco - 在 TIBCO BW 6.5 的 Send-HTTP-Request 中在哪里添加“标头”?
- android - 寻找带圆角的 Android 对话框小部件
- excel - 从excel中的行中删除重复项
- php - 如何用它的照片显示一个画廊
- excel - 第二高和第一高值
- memory - 100 字节的内存分配失败
- python - 如何在每一行上做 value_counts 并制作一些其值是每个值的计数的列
- python - eBPF:读取 getaddrinfo 的结果
- python - 如何解决错误,“模块 umap 没有属性 UMAP”.. 我尝试安装和重新安装 umap 但对我不起作用
- python - plotly-dash 显示空白网页