apache-spark - YARN 容器和 Spark 执行器
问题描述
我目前有一个由 1 个驱动程序(8 个内核和 32GB RAM)和 2 个工作人员(8 个内核和 32gb RAM 之一,另一个是 8 个内核和 16gb RAM)组成的功能集群
但是,为了最大限度地提高效率,我似乎在生成的容器和 Spark 执行器之间有点混淆。
我当前的配置如下:
我的 SparkSession 配置是这些:
我希望在 Yarn 中运行 3 个容器,1 个用于驱动程序,2 个用于 Spark,但是我得到的输出如下:
只有两个Container,一个分配给RM,第二个分配给Worker。但是,如果我的工人(具有 16gb RAM 的那个)正在创建一个执行器,那么只有一个,为什么另一个没有创建一个执行器?
如何实现最大资源使用以拥有高速 Spark 应用程序
解决方案
推荐阅读
- java - RecyclerView ItemTouchHelper.Callback:拖动交换条件
- regex - 如何在 Dart 的 RegEx 文本中获取组的开始和结束索引?
- c# - 为什么我不允许在返回 IAsyncEnumerable 的方法中返回 IAsyncEnumerable
- javascript - TypeError:尝试创建另一个脚本文件的类的新实例时出现非法构造函数
- python - 根据先前列的最新值在数据框中创建新列
- android - 每当我尝试从 Fragment java 文件中更改片段的某些属性时,应用程序就会崩溃
- java - 从 Dynamo DB 中获取 n 条最新记录
- c# - 如何在 UWP C# 应用程序中使用 Yubikey 使用 PIV 签署 PDF?
- php - 如何在模板文件中使用 Url->build in cakephp4 生成 url?
- git - `git pull` 不合并,但 `git pull origin
`会,为什么?