首页 > 解决方案 > EMR 集群中的 Spark on Yarn 核心数

问题描述

我有一个用于 spark 的 Emr 集群,具有以下 2 个实例的配置。

r4.2xlarge
8 vCore

所以我的总 vCores 是16,同样反映在 yarn Vcor​​es

我已经提交了一个带有参数 --num-executors 2 --executor-cores 5 的 spark 流作业。所以我假设它将用2*5 总共 10 个 vcore用于执行程序,但它总共只使用了 2 个核心集群(司机+1)

.纱线记忆算法

而在 Spark 中,该作业仍在以 10 (2*5) 的并行任务运行。似乎它只是在每个执行程序核心中只运行 5 个线程。 任务

我已经阅读了不同的问题和文档 --executor-cores 使用实际的 vCores,但在这里,它仅将任务作为线程运行。我的理解在这里正确吗?

标签: apache-sparkspark-streaminghadoop-yarnamazon-emrspark-submit

解决方案


推荐阅读