首页 > 解决方案 > 什么是为 Google 云数据流部署和管理 Python SDK Apache Beam 管道执行的便捷方法

问题描述

一旦使用 Python SDK 在 Google 的云 Dataflow 中设计和测试了 Apache Beam 管道,那么它放在 Google 云中并管理其执行DataflowRunner的便捷方法是什么?

为 Google Cloud Dataflow 部署和管理 Python SDK Apache Beam 管道执行的便捷方法是什么?

它应该以某种方式包装吗?已上传到 Google 存储?创建数据流模板?除了开发人员在其开发环境中执行之外,如何安排其执行?

更新

最好没有第三方工具,或者不需要额外的管理工具/基础设施,特别是谷歌云和数据流。

标签: pythongoogle-cloud-platformgoogle-cloud-dataflowapache-beam

解决方案


我想说最方便的方法是使用Airflow。这允许您创作、安排和监控工作流程。Dataflow Operator可以启动您设计的数据管道。Airflow 可以在小型 VM 上启动,也可以使用Cloud Composer启动,Cloud Composer 是 Google Cloud Platform 上的一个工具。

还有更多选项可以自动化您的工作流程,例如JenkinsAzkabanRundeck,甚至运行一个简单的 cronjob(我不鼓励您使用)。您可能还想看看这些选项,但 Airflow 可能适合您的需求。


推荐阅读