首页 > 解决方案 > 如何使用 terraform 在 EMR 创建中启动 Spark 作业

问题描述

我的用例如下。通过 Terraform,我想创建一个 EMR 集群,启动一个 Spark 作业并在作业完成后终止集群。

我在 Terraform 文档(https://www.terraform.io/docs/providers/aws/r/emr_cluster.html#step-1)中找到了这个步骤机制,但我没有在 Google 上找到任何 Spark Job 示例(一个

也许我做错了,因为我的用例看起来很简单,但我找不到其他方法。

谢谢你的帮助

标签: apache-sparkterraformamazon-emr

解决方案


我终于找到了通过 step 指令,可以从存储在 s3 中的 Jar 启动 Spark Job

step {
    action_on_failure = "TERMINATE_CLUSTER"
    name   = "Launch Spark Job"

    hadoop_jar_step {
      jar  = "command-runner.jar"
      args = ["spark-submit","--class","com.mycompany.App","--master","yarn","s3://my_bucket/my_jar_with_dependencies.jar"]
    }
}

推荐阅读