首页 > 解决方案 > Google Cloud Dataflow - Java SDK 与 Python SDK

问题描述

我开始使用 Google Cloud Dataflow 进行批处理和流处理。正在开发的作业主要用于从不同来源(MySQL、Kafka 和文件系统)摄取数据、清理它们、进行一些流式传输和浴聚合,以及写回 Google Cloud Storage。

鉴于这些任务,对于使用Java SDKPython SDK编写作业有什么建议吗?它们之间在性能和功能方面有什么明显差异吗?

例如,我注意到对于 Java SDK,内置的 I/O PTransform JdbcIO是可用的。这PTransform在 JDBC 上读取和写入数据,这在 Python SDK 中不可用(到目前为止)。是否可以仅使用 Java SDK 来创建从 MySQL 数据库读取并写入 Google Cloud Storage 的管道,而其他管道使用不同的 SDK(例如 Python)?

在此先感谢您的时间!

标签: javapythongoogle-cloud-platformgoogle-cloud-dataflowapache-beam

解决方案


我会继续使用javaSDK,因为 Java 中的功能和外部连接器更多。但pythonSDK 也在迎头赶上。

就性能考虑而言,当我们向数据流提交梁作业时,作业步骤将在 API 调用中发送到谷歌云数据流。因此,我认为就数据流而言,性能没有显着差异


推荐阅读