首页 > 解决方案 > 向 AWS EMR 集群提交 Spark 步骤时如何指定核心实例节点

问题描述

我在 AWS 上为我的 EMR 集群运行多个实例。我有 2 个 CORE 节点实例和 1 个 MASTER 节点

https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/emr.html#EMR.Client.add_job_flow_steps

我正在使用 PySpark 提交作业,但在指定要在其上运行的 CORE 节点时看不到任何内容。我认为这是自动完成的(比如循环式?)

有没有办法做到这一点?

标签: apache-sparkpysparkamazon-emr

解决方案


你总是将你的步骤提交给主节点而不是核心节点。然后,主节点将任务分发给集群的工作人员(核心或任务节点中的 Spark 执行程序)。


推荐阅读