首页 > 解决方案 > 分组数据在数据流中需要更长的时间来处理

问题描述

我正在使用 apache beam sdk 编写代码。在这里,我有一个 PCollection,其中包含有关我正在应用分组或创建一组该数据的数据的大量数据。对数据进行分组后,我在其上和 processElement 内应用 Pardo,迭代每个 tablerow(其中也有 for 循环)并处理它并创建最终 tablerow,然后将其写入 biqquery。

大约 42k 的数据需要 1 小时的时间才能加载到表中。这是最少的数据量,一旦数据量增加它就会死掉。

任何人都可以帮助我或给我一些好的建议。

谢谢。!!!

在此处输入图像描述

标签: javagroup-bygoogle-cloud-dataflowapache-beam

解决方案


推荐阅读