首页 > 解决方案 > 在DataFlow上同步执行数据的处理流程?

问题描述

我想做批处理以使用 DataFlow 复杂地执行 BigQuery 的数据处理并将其存储在 BigQuery 的另一个表中。

具体来说就是这样一个过程。

从 BigQuery 读取数据 → Dofn 处理 → 组合处理 → 展平处理 → 组合处理 → 展平处理 → 将数据写入 Bigquery。

这个过程按照 DirectRunner (Local) 的意图移动,但是当使用 DataFlowRunner (GCP) 执行时,由于每个 Ptransform 都是异步执行的,所以即使数据读取没有完成,Combine 过程也会执行它不会严重移动,例如。

如何在DataFlow上同步执行数据的处理流程?

标签: google-cloud-platformgoogle-cloud-dataflowapache-beam

解决方案


推荐阅读