首页 > 解决方案 > 使用 ParDo 遵循不同的变换 - Apache Beam

问题描述

在 Distinct 之后立即使用 ParDo 是个好主意吗?发生的情况是,Distinct 变换中的 Extract First Element 步骤与以下 ParDo 和后续变换并行工作。由于某种奇怪的原因,管道已经放慢了速度。我应该等待不同的完成,然后通过在侧输入之间创建一个虚拟变换继续前进吗?

请告诉我...

代码片段:

p.apply(TextIO.read().from("gs://"))
.apply(Distinct.<String>create())
.apply(ParDo.of(new DoFn...))
.apply(ParDo.of(new DoFn...))
.apply(SpannerIO.write()...)

标签: google-cloud-dataflowapache-beam

解决方案


推荐阅读