首页 > 解决方案 > 如何在一个应用程序中提交多个工作的火花

问题描述

我有一个使用 spark 2.1(scala) 的报表统计项目,它是这样工作的:</p>

object PtStatsDayApp extends App {
    Stats A...
    Stats B...
    Stats C...
     .....     
}

有人将许多统计计算(大部分不相关)放在一个类中并使用 shell 提交。我发现它有两个问题:

还有其他想法或最佳实践吗?谢谢

标签: apache-spark

解决方案


有几个 3d 派对免费 Spark 调度程序,如 Airflow,但我建议使用 Spark Launcher API 并以编程方式编写启动逻辑。使用此 API,您可以并行、顺序或任何您想要的方式运行您的作业。

文档链接:https ://spark.apache.org/docs/2.3.0/api/java/index.html?org/apache/spark/launcher/package-summary.html

并行运行作业的效率主要取决于 Spark 集群配置。一般来说,Spark 支持这种类型的工作负载。


推荐阅读