python-3.x - 优化气流
问题描述
我是新手Apache Airflow
。我创建了一个气流 dag,其中有几个并行运行的图像处理任务。基本上,我正在尝试阅读 PDF(由 10 页组成),将每一页并行转换为图像,在每一页上进行一些图像处理并将输出转储到JSON
(在组合每一页的输出之后)。检查下图:
到目前为止,我已经使用了在 8 核 cpu(单机)之上运行的本地执行 程序(默认配置 ) 。该过程大约需要40 分钟才能完成。我还通过更改为、和来调整配置。花了大约20分钟。max_threads
8
parallelism
8
dag_concurrency
8
对于相同的页数,我希望整个过程在5-10 分钟内完成。是否可以使用当前的执行器配置?
非常感谢。
解决方案
推荐阅读
- powerbi - PowerBI:如何获取表中列的不同计数,同时分别对许多列进行分组
- kubernetes - 关闭节点时端点更新非常慢
- azure - Azure 响应时间监控每个请求的范围
- json - 使用 REST POST 在映射器中使用 Postman 传递 json 正文 - Snaplogic
- swiftui - Swiftui - 从 UIViewRepresentable 访问 UIKit 方法/属性
- javafx - 为什么 ASCII 艺术在控制台/终端输出等文本字段中看起来不好看?
- dynamics-crm - Dynamics 365:Microsoft Dynamics CRM 遇到错误 System.Runtime.Serialization.SerializationException
- jquery - .Net MVC - 无法阻止我的 Ajax.BeginForm 被黑客入侵
- encryption - Cassandra 集群从未加密状态转变为加密状态
- javascript - Rollup + Typescript + ESLint 错误警告