apache-spark - 如何使用 terraform 在 EMR 创建中启动 Spark 作业
问题描述
我的用例如下。通过 Terraform,我想创建一个 EMR 集群,启动一个 Spark 作业并在作业完成后终止集群。
我在 Terraform 文档(https://www.terraform.io/docs/providers/aws/r/emr_cluster.html#step-1)中找到了这个步骤机制,但我没有在 Google 上找到任何 Spark Job 示例(一个
也许我做错了,因为我的用例看起来很简单,但我找不到其他方法。
谢谢你的帮助
解决方案
我终于找到了通过 step 指令,可以从存储在 s3 中的 Jar 启动 Spark Job
step {
action_on_failure = "TERMINATE_CLUSTER"
name = "Launch Spark Job"
hadoop_jar_step {
jar = "command-runner.jar"
args = ["spark-submit","--class","com.mycompany.App","--master","yarn","s3://my_bucket/my_jar_with_dependencies.jar"]
}
}
推荐阅读
- sql - 聚合更新
- java - 从 Cloud Firestore 获取地图数据
- xamarin.forms - 如何使用 xamarin ios 在 instagram 中共享文本和链接?
- python - AWS S3:从 ec2 到 s3 的大文件上传失败
- python - 自然语言处理中多列的预测值
- pandas - 在 numpy 数组中应用自定义函数
- r - 如何在R中不可见地输出部分输出
- visual-studio - 如何在 Visual Studio 2019 中创建 xamarin PCL 项目
- c# - 如何从 **1&1 Ionos** 托管服务器中托管的 ASP.NET Core 2.2 连接 MS SQL Server 数据库?
- android - 有什么方法可以正确显示 FAB 按钮?