首页 > 解决方案 > 如何在火花中并行运行多个作业?

问题描述

我正在使用带有 spark 的 yaml 文件处理,并且代码是用 java 编写的

示例:假设我们有 5 个 yaml 文件 1.yaml、2.yaml、3.yaml、4.yaml、5.yaml

1:前4个yaml文件执行是相互独立的,所以想并行运行2:5.yaml文件需要前4个yaml文件处理产生的输出,所以5.yaml文件处理要等到前4个完成

鉴于: 许多应用程序使用 Spark 集群进行处理

注意事项: 1:每个应用程序都应该公平地获得资源分配,这意味着如果某些作业运行时间更长且资源更密集,那么其他应用程序必须等待,所以这种情况不应该发生,即资源分配应该限制为一个应用程序

标签: apache-sparkyaml

解决方案


推荐阅读