python - Apache Beam 中的并行度
问题描述
在使用 python 库在 Apache Beam 中进行 parDo 转换时,有什么方法可以设置并行数?
代码 :
xmls = contracts | 'Get XML' >> beam.ParDo(get_xml())
解决方案
Beam 模型对数据进行分片,但它不依赖于预先确定的分片数,因此它没有允许在 ParDo 上指定它的接口。例如,Beam runner 之一,Cloud Dataflow,由于这种模型,可以进行液体分片和自动缩放。
推荐阅读
- flutter - java.lang.IllegalStateException 仅在 android 生产版本颤振中发生
- javascript - 在具有“activeTab”权限的活动选项卡中执行脚本时,Chrome Web 扩展程序出错
- javascript - 我们如何在 javascript 的函数内部理解和创建这个参数?
- sql-server - 如何解决“选择失败,因为以下 SET 选项的设置不正确:'ANSI_PADDING'。”错误
- ios - 在我发布的 iOS 应用程序中,每天将数据添加到 tableview 的最佳方法是什么?
- python - 如何使用 itertools 提取 groupby 值?
- apache-camel - 消息路由器用例
- android - 如何将 Android 的导航架构组件与 Bazel 一起使用?
- linux - 如何在不使用 Intellij 的情况下在 Linux centos 中运行黄瓜测试用例
- flutter - Dart/Flutter 中的依赖关系图?