apache-spark - 如何使用气流触发 google dataproc 作业并传递参数
问题描述
作为 DAG 的一部分,我正在使用以下代码触发 gcp pyspark dataproc 作业,
dag=dag,
gcp_conn_id=gcp_conn_id,
region=region,
main=pyspark_script_location_gcs,
task_id='pyspark_job_1_submit',
cluster_name=cluster_name,
job_name="job_1"
)
如何将变量作为参数传递给可在脚本中访问的 pyspark 作业?
解决方案
您可以使用DataProcPySparkOperatorarguments
的参数:
arguments (list) -- 作业的参数。(模板)
job = DataProcPySparkOperator(
gcp_conn_id=gcp_conn_id,
region=region,
main=pyspark_script_location_gcs,
task_id='pyspark_job_1_submit',
cluster_name=cluster_name,
job_name="job_1",
arguments=[
"-arg1=arg1_value", # or just "arg1_value" for non named args
"-arg2=arg2_value"
],
dag=dag
)
推荐阅读
- coq - 在 coq 中定义多态归纳类型树
- javascript - 未定义,找不到错误
- r - 从r中的POSIX日期和时间类的对象中提取月份和年份
- r - 如何使用 plm() 将年份固定效应转化为十年固定效应?
- reactjs - 特定状态改变时如何触发功能
- apache - 虚拟主机将我重定向到 Apache 默认页面测试 123
- clojure - 序列的运行长度编码
- swift - Swift 是否支持新的数据类型和代数数据类型?
- swiftui - 在时钟应用程序中重现计时器选择器 - SwiftUI
- linux - 如果在 Ubuntu 20.04 上安装了 docker-ce 和 containerd,K8s 使用什么 CRI?