首页 > 解决方案 > 在与 Databricks 的 Airflow 集成中使用 spark_submit_task 时未定义名称“dbutils”

问题描述

我正在尝试调用一个执行某些操作并导入其他 python 文件的 python 文件。当我从 UI 运行代码时,代码运行良好但是当我尝试创建新集群并使用气流运行代码时显示 dbutils 未定义。这就是我试图这样做的方式:

spark_submit_task_json = {
'new_cluster': new_cluster,
'spark_submit_task': {
    'parameters': [
                "--class","org.apache.spark.examples.SparkPi",
                "--py-files",
                "dbfs:/FileStore/tables/CC/Codes_Required.zip","dbfs:/FileStore/tables/CC/Code.py"
                ]
                }}

Function = DatabricksSubmitRunOperator(
task_id='Function',
databricks_conn_id='Connection_ID',
json = spark_submit_task_json,
dag=dag)

标签: airflowdatabricks

解决方案


推荐阅读