首页 > 解决方案 > Nutch 作为具有自定义处理管道的备用蜘蛛

问题描述

我想使用 Apache Nutch 作为蜘蛛,它只获取给定的 url 列表(不爬行)。url 将存储在 Redis 中,我希望 Nutch 不断地从列表中弹出它们并获取 html。蜘蛛需要处于待机模式——它总是等待新的 url 进入 Redis,直到用户决定停止工作。另外,我想将自己的处理管道应用于提取的 html 文件(不仅仅是文本提取)。有可能与Nutch有关吗?

标签: hadoopweb-crawlernutch

解决方案


StormCrawler 将更适合实现这一目标 - 它旨在能够满足您所描述的场景。您需要编写一个自定义 spout 以连接到 redis,重用 fetcher 和 parser bolts,然后使用您自己的处理添加 bolts。SC 的一些早期用户正是这样做的


推荐阅读