首页 > 解决方案 > Nutch/Elastic 搜索术语定义

问题描述

我使用 nutch 和 Elastisearch 来抓取/解析 99 个网站/链接,以便在 Elasicsearch 中对它们进行索引,以便我可以使用搜索引擎。它确实抓取了所有 99 个网站/链接,但我得到的最终消息如下。我想了解重定向、添加/更新是什么意思?如果有可能找出哪些已经消失并重定向?

Indexer: number of documents indexed, deleted, or skipped:
Indexer:      5  deleted (gone)
Indexer:      8  deleted (redirects)
Indexer:     76  indexed (add/update)
Indexer: finished at 2020-12-17 13:07:19, elapsed: 00:00:08

标签: parsingelasticsearchsolrweb-crawlernutch

解决方案


Nutch 不知道某个页面是否已经在索引中。为了使索引和爬取的内容保持同步,

  • 成功获取的页面被发送到索引并计为添加或更新
  • (使用索引器选项-deleteGone)404 和其他失败的提取将从索引中删除并计为“已消失”
  • 重定向相同,但单独计为“重定向”

如果有可能找出哪些已经消失并重定向?

您可以使用 Nutch 工具

  • readdb转储 CrawlDb
  • readseg转储被索引的段

然后搜索404,获取失败,重定向等。调用bin/nutch readdbresp。bin/nutch readseg将显示所有可用的命令行选项。


推荐阅读