apache-spark - 如何在火花中并行运行多个作业?
问题描述
我正在使用带有 spark 的 yaml 文件处理,并且代码是用 java 编写的
示例:假设我们有 5 个 yaml 文件 1.yaml、2.yaml、3.yaml、4.yaml、5.yaml
1:前4个yaml文件执行是相互独立的,所以想并行运行2:5.yaml文件需要前4个yaml文件处理产生的输出,所以5.yaml文件处理要等到前4个完成
鉴于: 许多应用程序使用 Spark 集群进行处理
注意事项: 1:每个应用程序都应该公平地获得资源分配,这意味着如果某些作业运行时间更长且资源更密集,那么其他应用程序必须等待,所以这种情况不应该发生,即资源分配应该限制为一个应用程序
解决方案
推荐阅读
- android - 如何在 Flutter SharedPrefrences 中访问 iOS UserDefaults 存储的数据
- python - zip(*) 如何生成 n-gram?
- deep-learning - Pytorch 模型在 CPU 和 GPU 上都内存不足,无法弄清楚我做错了什么
- asp.net-mvc - 如何在控制器中获取数据表的参数?
- amazon-web-services - 使用 aws textract 从 Invoice 中提取业务相关数据
- laravel - Laravel Sanctum CSRF 为未受保护的路由返回 419
- c++ - 我的代码有什么问题?没有得到正确的 C++ 程序输出
- sql-server - MS DTC 停止了 BizTalk 的事务,导致接收管道中的消息卡住
- mysql - mysql将参数传递给子查询
- kotlin - 添加到包含在 livedata 中的列表并将元素添加到该列表