python - 什么是为 Google 云数据流部署和管理 Python SDK Apache Beam 管道执行的便捷方法
问题描述
一旦使用 Python SDK 在 Google 的云 Dataflow 中设计和测试了 Apache Beam 管道,那么将它放在 Google 云中并管理其执行DataflowRunner
的便捷方法是什么?
为 Google Cloud Dataflow 部署和管理 Python SDK Apache Beam 管道执行的便捷方法是什么?
它应该以某种方式包装吗?已上传到 Google 存储?创建数据流模板?除了开发人员在其开发环境中执行之外,如何安排其执行?
更新
最好没有第三方工具,或者不需要额外的管理工具/基础设施,特别是谷歌云和数据流。
解决方案
我想说最方便的方法是使用Airflow。这允许您创作、安排和监控工作流程。Dataflow Operator可以启动您设计的数据管道。Airflow 可以在小型 VM 上启动,也可以使用Cloud Composer启动,Cloud Composer 是 Google Cloud Platform 上的一个工具。
还有更多选项可以自动化您的工作流程,例如Jenkins、Azkaban、Rundeck,甚至运行一个简单的 cronjob(我不鼓励您使用)。您可能还想看看这些选项,但 Airflow 可能适合您的需求。
推荐阅读
- python - 使用glom,如何连接可选字符串?
- aws-serverless - AWS 部署无服务器限制?
- asp.net-core-mvc - 向 Twilio 发送重定向 Uri 到同一控制器中的另一个操作
- css - 如何将伪类有效/无效与 Angular 表单控件验证器混合?
- influxdb - 在 influxdb 中显示具有相似名称的测量
- gcc - AVR-GCC Windows 与 Linux
- java - 如何基于两个列表创建二维数组
- asp.net - ASP.NET 站点:如何阻止脚本在 URL 中运行
- imacros - iMacro,点击手动执行javascript,但在iMacro中不起作用
- python - 箭头的悬垂属性在注释中不起作用