首页 > 解决方案 > 在本地动态火花集群上运行并行作业

问题描述

我是 spark 新手,我们需要设置一个动态 spark 集群来运行多个作业。通过参考一些文章,我们可以通过使用 EMR (Amazon) 服务来实现这一点。有什么方法可以在本地完成相同的设置吗?一旦 Spark 集群可以在不同服务器上的不同端口上运行服务,如何将雾指向每个作业的新 Spark 集群。提前致谢。

标签: apache-sparkspark-streaming

解决方案


是的,您可以使用 Spark 提供的独立集群,您可以在其中设置 Spark 集群(主节点和从节点)。还有一些 docker 容器可以用来实现这一点。看看这里

其他选择是采用和部署本地 Hadoop 生态系统,如 MapR、Hortonworks、Cloudera。


推荐阅读