首页 > 解决方案 > 气流任务在完成后继续运行

问题描述

就我们在​​ Airflow 和 Spark 中面临的问题伸出援手。

设置:我们目前正在使用 Apache Airflow (v2.0.1) 来监控和安排我们的一个项目的工作流程。我们使用 spark submit 操作符创建了一个 DAG。(火花 v3.0.0)

Airflow > SparkSubmitOperator 在集群模式下,Kubernetes 作为 spark master K8s:// > Kubernetes 上 spark driver 和 executor pod 的动态分配和 Pod 管理

问题:在从气流 UI 触发 DAG 时,我们面临一个问题,即它随机卡在某个任务上,当它在驱动程序 pod 中完成时,它一直显示该任务在 UI 中运行。我们已经单独测试了它的每一个任务,它们都成功执行了。

下面是DAg图供您参考。

DAG 图

对于气流 UI 上的任务,我们反复获得以下日志。 日志

尝试解决此问题:在 python 代码中添加 spark.stop() 和 sys.exit(0) 以返回正确的退出状态。(但没有运气 - 气流随机卡在任务上)。

最近几天我一直在解决这个问题,但无法解决,这里的任何线索/方向都会有所帮助。

标签: apache-sparkkubernetesairflow

解决方案


推荐阅读