web-crawler - 在本地模式下运行 StormCrawler 或安装 Apache Storm?
问题描述
所以我试图弄清楚如何使用 ES 和 Kibana 安装和设置 Storm/Stormcrawler,如此处所述。
我从来没有在我的本地机器上安装过 Storm,因为我以前使用过 Nutch,而且我从来不需要在本地安装 Hadoop……我认为 Storm 可能是一样的(也许不是?)。
我现在想开始用 Stormcrawler 而不是 Nutch 爬行。
似乎如果我只是下载一个版本并将 /bin 添加到我的 PATH 中,我只能与远程集群通信。
似乎我需要根据这个设置一个开发环境,让我能够随着时间的推移开发不同的拓扑,然后在准备部署新拓扑时从我的本地机器上与远程集群通信。那正确吗?
因此,当我使用 Maven 构建 Stormcrawler 项目时,似乎我需要做的就是将 Storm 作为依赖项添加到我的 Stormcrawler 项目中?
解决方案
请参阅入门页面和Youtube 上的教程。
您无需安装 Storm,因为您可以在本地模式下运行拓扑,就像使用 Nutch 和 Hadoop 一样。只需从原型生成拓扑,根据需要对其进行修改,例如添加 ES 组件并使用 -local 运行它。请参阅原型生成的自述文件。
稍后,您将安装 Storm 以从 UI 中受益,并可能在多个节点上运行它,但作为起点,在本地执行它是探索 StormCrawler 功能的好方法。
推荐阅读
- javascript - 如何将网页的一部分“流式传输”到另一个窗口?
- jquery - 如何使用 jQuery 或 CSS 将列表项分组为子列表?
- reactjs - 无法关闭从父组件触发的模式
- excel - VBA Excel 不会将数据复制到工作表
- mysql - 使用条件将数据插入配置单元时出错
- javascript - 遍历 Map 中的每一对元素
- audiokit - AKSequencer Midi Note 在位置 0.0 不发送起始字节
- ios - 为 UITableView 中的多个单元格提供不同数量的行
- python - 优化忽略某些标签值的损失函数
- java - 如何使投射的光线角度相对于鼠标位置?