hadoop - Nutch 作为具有自定义处理管道的备用蜘蛛
问题描述
我想使用 Apache Nutch 作为蜘蛛,它只获取给定的 url 列表(不爬行)。url 将存储在 Redis 中,我希望 Nutch 不断地从列表中弹出它们并获取 html。蜘蛛需要处于待机模式——它总是等待新的 url 进入 Redis,直到用户决定停止工作。另外,我想将自己的处理管道应用于提取的 html 文件(不仅仅是文本提取)。有可能与Nutch有关吗?
解决方案
StormCrawler 将更适合实现这一目标 - 它旨在能够满足您所描述的场景。您需要编写一个自定义 spout 以连接到 redis,重用 fetcher 和 parser bolts,然后使用您自己的处理添加 bolts。SC 的一些早期用户正是这样做的
推荐阅读
- python - 如何将行值与另一个熊猫数据框中的组值总和进行比较?
- tensorflow - 如何使用 Keras Lambda 层修复类型错误
- sapui5 - 一起使用控制器和视图
- python - 数据帧中复杂函数的多次返回向量化
- android - 如何解决在 android 中实现 Dagger 2 时缺少的 InjectedFieldSignature 错误?
- sql - 在日期之间添加 - sql查询
- python - python中的循环行为
- kubernetes - 在 Jupyterhub 中使用来自私人仓库的图像
- javascript - 如何重命名uppy中的文件?javascript
- javascript - 将 JSON 中的字符串放入 var