google-cloud-platform - 在DataFlow上同步执行数据的处理流程?
问题描述
我想做批处理以使用 DataFlow 复杂地执行 BigQuery 的数据处理并将其存储在 BigQuery 的另一个表中。
具体来说就是这样一个过程。
从 BigQuery 读取数据 → Dofn 处理 → 组合处理 → 展平处理 → 组合处理 → 展平处理 → 将数据写入 Bigquery。
这个过程按照 DirectRunner (Local) 的意图移动,但是当使用 DataFlowRunner (GCP) 执行时,由于每个 Ptransform 都是异步执行的,所以即使数据读取没有完成,Combine 过程也会执行它不会严重移动,例如。
如何在DataFlow上同步执行数据的处理流程?
解决方案
推荐阅读
- haskell - 计算列表中每个元素的所有出现次数
- android - 无法从命令行执行 sdk manager 命令:Android
- sql - 在 sql 中使用 group by over id 对重叠值或日期进行求和/计数
- google-chrome - Overscroll Navigation Flag not working on Chome command line
- typescript - 如何键入一个函数,该函数包装了一个承诺返回函数,并返回一个原始函数的类型?
- elasticsearch - Elasticsearch 倒排索引
- python - Wait till NSTask completes its execution of terminal command
- sql - SQL to LINQ possible?
- html - radio inputs not working correctly in angular 7
- obiee - 单一业务模型中的 OBIEE 多事实表?