首页 > 解决方案 > AWS Glue 自动创建作业

问题描述

我有可以在 AWS GLUE 中运行的 pyspark 脚本。但是每次我从 UI 创建作业并将我的代码复制到作业时。无论如何我可以从 s3 存储桶中的文件自动创建作业。(我有所有将在运行时使用的库和粘合上下文)

标签: amazon-web-servicesamazon-ec2pysparkaws-glueaws-glue-data-catalog

解决方案


另一种选择是使用AWS CloudFormation。您可以在模板文件中定义要创建的所有 AWS 资源(不仅是 Glue 作业),然后在需要时从AWS 控制台使用 cli更新堆栈。

胶水作业的模板如下所示:

  MyJob:
    Type: AWS::Glue::Job
    Properties:
      Command:
        Name: glueetl
        ScriptLocation: "s3://aws-glue-scripts//your-script-file.py"
      DefaultArguments:
        "--job-bookmark-option": "job-bookmark-enable"
      ExecutionProperty:
        MaxConcurrentRuns: 2
      MaxRetries: 0
      Name: cf-job1
      Role: !Ref MyJobRole # reference to a Role resource which is not presented here

推荐阅读