java - 分组数据在数据流中需要更长的时间来处理

问题描述

我正在使用 apache beam sdk 编写代码。在这里，我有一个 PCollection，其中包含有关我正在应用分组或创建一组该数据的数据的大量数据。对数据进行分组后，我在其上和 processElement 内应用 Pardo，迭代每个 tablerow（其中也有 for 循环）并处理它并创建最终 tablerow，然后将其写入 biqquery。

大约 42k 的数据需要 1 小时的时间才能加载到表中。这是最少的数据量，一旦数据量增加它就会死掉。

任何人都可以帮助我或给我一些好的建议。

谢谢。！！！

标签： javagroup-bygoogle-cloud-dataflowapache-beam

java - 分组数据在数据流中需要更长的时间来处理

问题描述

解决方案

推荐阅读