java - Google Cloud Dataflow - Java SDK 与 Python SDK
问题描述
我开始使用 Google Cloud Dataflow 进行批处理和流处理。正在开发的作业主要用于从不同来源(MySQL、Kafka 和文件系统)摄取数据、清理它们、进行一些流式传输和浴聚合,以及写回 Google Cloud Storage。
鉴于这些任务,对于使用Java SDK或Python SDK编写作业有什么建议吗?它们之间在性能和功能方面有什么明显差异吗?
例如,我注意到对于 Java SDK,内置的 I/O PTransform
JdbcIO是可用的。这PTransform
在 JDBC 上读取和写入数据,这在 Python SDK 中不可用(到目前为止)。是否可以仅使用 Java SDK 来创建从 MySQL 数据库读取并写入 Google Cloud Storage 的管道,而其他管道使用不同的 SDK(例如 Python)?
在此先感谢您的时间!
解决方案
我会继续使用java
SDK,因为 Java 中的功能和外部连接器更多。但python
SDK 也在迎头赶上。
就性能考虑而言,当我们向数据流提交梁作业时,作业步骤将在 API 调用中发送到谷歌云数据流。因此,我认为就数据流而言,性能没有显着差异
推荐阅读
- javascript - 在文本框中显示按钮的值并在javascript中更改所选按钮的颜色
- excel - 选择所有带前缀的工作表,复制和粘贴数据
- javascript - 在 Jest (Vue) 中测试子组件时如何模拟发射
- java - BIRT 每个表的单独页数
- drupal - 嗨,我正在使用 Drupal 9,并且在网络选项卡中的请求 jQuery 3.5.1 发送另一个上下文渲染调用。这个电话有什么原因吗?
- python - 从不同的索引开始'forloop.counter'或在结果中添加一些东西
- r - R函数返回每个值的位置出现的向量?
- javascript - 在 React 中,我需要从本地存储中获取状态,然后根据该状态有条件地设置另一个状态
- keras - 使用 PyTorch 的 DCGAN 判别器准确度指标
- javascript - 了解 debounce 函数逻辑流程,特别是对于 Event 对象 - (...args) 从哪里获取它的值?