airflow-scheduler - Apache Airflow - DAG 中有多少任务太多了?
问题描述
我尝试了一个有 400 个任务的 DAG(比如每个运行调用远程 spark 服务器以将单独的数据文件处理到 s3 中......与 mysql 无关)和气流(v1.10.3)在接下来的 15 分钟内执行了以下操作:
- cpu 保持在 99%
- 没有处理对我的机器(amazon linux)的新腻子登录或 ssh 请求
- 气流网络服务器停止响应..仅给出 504 错误
- 启动 130 个与 mysql RDS (airflow metadb) 的并发连接
- 让我的任务停留在预定状态
我最终切换到另一个 ec2 实例但得到了相同的结果......
我在单机(16 个 CPU)上运行 LocalExecutor。
注意具有 30 个任务的 DAG 运行良好。
解决方案
DAG 中的任务数量没有实际限制。在您的情况下,您正在使用LocalExecutor
-airflow 然后将使用主机上可用的任何资源来执行任务。听起来您刚刚使您的 ec2 实例的资源不堪重负,并使气流工作人员/调度程序超载。我建议增加更多的工人来分解任务或降低parallelism
你的airflow.cfg 中的值
推荐阅读
- java - Static methods with same signature after type erasure in Java
- android - Flutter 禁用方向更改动画并在特定小部件上使用自定义动画?
- java - Travis CI Spring Boot Error (Gradle Error)
- php - Finding all unique permutations of an array efficiently
- typescript - 错误:自签名证书尝试使用 vscode 扩展连接到 vis WSS
- powershell - Unable to run bcp command from PowerShell
- java - Java:包含所有十进制值的脚本
- android - NoClassDefFoundError at AppModule.provideViewModelFactories(AppModule.kt)
- sql - 内连接根据 IF-THEN-ELSE 语句从第二个表中仅选择一行
- installation - Glow 编译器安装指南