首页 > 解决方案 > Apache 气流,TimeDeltaSensor 延迟 DAG 中的所有任务

问题描述

在此处输入图像描述

如上图所示,我指定了一个气流 dag。git_pull_datagenerator_batch_2应该由 TimeDeltaSensor延迟wait_an_hour

但是,该任务git_pull_datagenerator似乎也被延迟了,尽管它不依赖于wait_an_hour. (整个dag安排在2019-12-10T20:00:00,但是git_pull_datagenerator比那晚了一个小时开始)

我检查了所有气流文件,但找不到任何线索。

标签: airflow

解决方案


我假设您的日程安排间隔是每小时一次?执行日期为2019-12-10T20:00:00@hourly计划时间间隔运行的 DAG 预计将在第2019-12-10T21:00:0020 小时“完成”时或之后不久运行。我认为这与传感器无关。

这是一个常见的气流陷阱

Airflow 是作为 ETL 需求的解决方案而开发的。在 ETL 世界中,您通常会汇总数据。因此,如果我想汇总 2016 年 2 月 19 日的数据,我会在格林威治标准时间 2016 年 2 月 20 日午夜进行,这将是在 2016 年 2 月 19 日的所有数据可用之后。

如果这是正在发生的事情,wait_an_hour请从2019-12-10T21:00:00git_pull_datagenerator_batch_2开始2019-12-10T22:00:00


推荐阅读