首页 > 解决方案 > 优化气流

问题描述

我是新手Apache Airflow。我创建了一个气流 dag,其中有几个并行运行的图像处理任务。基本上,我正在尝试阅读 PDF(由 10 页组成),将每一页并行转换为图像,在每一页上进行一些图像处理并将输出转储到JSON(在组合每一页的输出之后)。检查下图:

在此处输入图像描述

到目前为止,我已经使用了在 8 核 cpu(单机)之上运行的本地执行 程序(默认配置 ) 。该过程大约需要40 分钟才能完成。我还通过更改为、和来调整配置。花了大约20分钟max_threads8parallelism8dag_concurrency8

对于相同的页数,我希望整个过程在5-10 分钟内完成。是否可以使用当前的执行器配置?

非常感谢。

标签: python-3.xconcurrencyparallel-processingairflow

解决方案


推荐阅读