首页 > 解决方案 > 在本地模式下运行 StormCrawler 或安装 Apache Storm?

问题描述

所以我试图弄清楚如何使用 ES 和 Kibana 安装和设置 Storm/Stormcrawler,如此处所述

我从来没有在我的本地机器上安装过 Storm,因为我以前使用过 Nutch,而且我从来不需要在本地安装 Hadoop……我认为 Storm 可能是一样的(也许不是?)。

我现在想开始用 Stormcrawler 而不是 Nutch 爬行。

似乎如果我只是下载一个版本并将 /bin 添加到我的 PATH 中,我只能与远程集群通信。

似乎我需要根据这个设置一个开发环境,让我能够随着时间的推移开发不同的拓扑,然后在准备部署新拓扑时从我的本地机器上与远程集群通信。那正确吗?

因此,当我使用 Maven 构建 Stormcrawler 项目时,似乎我需要做的就是将 Storm 作为依赖项添加到我的 Stormcrawler 项目中?

标签: web-crawlerapache-stormstormcrawler

解决方案


请参阅入门页面Youtube 上的教程

您无需安装 Storm,因为您可以在本地模式下运行拓扑,就像使用 Nutch 和 Hadoop 一样。只需从原型生成拓扑,根据需要对其进行修改,例如添加 ES 组件并使用 -local 运行它。请参阅原型生成的自述文件。

稍后,您将安装 Storm 以从 UI 中受益,并可能在多个节点上运行它,但作为起点,在本地执行它是探索 StormCrawler 功能的好方法。


推荐阅读