apache-spark - 如何在火花中并行运行多个作业？

我正在使用带有 spark 的 yaml 文件处理，并且代码是用 java 编写的

示例：假设我们有 5 个 yaml 文件 1.yaml、2.yaml、3.yaml、4.yaml、5.yaml

1：前4个yaml文件执行是相互独立的，所以想并行运行2：5.yaml文件需要前4个yaml文件处理产生的输出，所以5.yaml文件处理要等到前4个完成

鉴于：许多应用程序使用 Spark 集群进行处理

注意事项： 1：每个应用程序都应该公平地获得资源分配，这意味着如果某些作业运行时间更长且资源更密集，那么其他应用程序必须等待，所以这种情况不应该发生，即资源分配应该限制为一个应用程序

标签： apache-sparkyaml