首页 > 解决方案 > Apache Beam 中的并行度

问题描述

在使用 python 库在 Apache Beam 中进行 parDo 转换时,有什么方法可以设置并行数?

代码 :

xmls = contracts | 'Get XML' >> beam.ParDo(get_xml())

标签: pythonapache-beam

解决方案


Beam 模型对数据进行分片,但它不依赖于预先确定的分片数,因此它没有允许在 ParDo 上指定它的接口。例如,Beam runner 之一,Cloud Dataflow,由于这种模型,可以进行液体分片和自动缩放。


推荐阅读