parsing - Nutch/Elastic 搜索术语定义
问题描述
我使用 nutch 和 Elastisearch 来抓取/解析 99 个网站/链接,以便在 Elasicsearch 中对它们进行索引,以便我可以使用搜索引擎。它确实抓取了所有 99 个网站/链接,但我得到的最终消息如下。我想了解重定向、添加/更新是什么意思?如果有可能找出哪些已经消失并重定向?
Indexer: number of documents indexed, deleted, or skipped:
Indexer: 5 deleted (gone)
Indexer: 8 deleted (redirects)
Indexer: 76 indexed (add/update)
Indexer: finished at 2020-12-17 13:07:19, elapsed: 00:00:08
解决方案
Nutch 不知道某个页面是否已经在索引中。为了使索引和爬取的内容保持同步,
- 成功获取的页面被发送到索引并计为添加或更新
- (使用索引器选项
-deleteGone
)404 和其他失败的提取将从索引中删除并计为“已消失” - 重定向相同,但单独计为“重定向”
如果有可能找出哪些已经消失并重定向?
您可以使用 Nutch 工具
readdb
转储 CrawlDbreadseg
转储被索引的段
然后搜索404,获取失败,重定向等。调用bin/nutch readdb
resp。bin/nutch readseg
将显示所有可用的命令行选项。
推荐阅读
- c# - FromQueryAttribute 是如何实际工作的,我为什么需要它?
- validation - 为什么我的猫鼬模式没有验证?
- scala - 序列的Scala分组
到地图 - javascript - JavaScript - 无法在 IF 语句中实现多个 Or
- angular - 调度凭证 store.dispatch(new Login(userName, password))
- python - 如何解决pycharm中的“NameError:名称'x'未定义”
- google-apps-script - 类型错误:在对象 GmailMessage 中找不到函数 forEach
- angular - 为什么这个属性在函数内部不起作用?
- visual-studio-2019 - 在 Visual Studio 2019 中保存项目文件会还原 csproj 文件中的更改
- c++ - 在循环中构造 QTextStream 会导致文件错误地读取数据