首页 > 解决方案 > 批量加载数据流中非常大的数据插入到 Big Query 步骤

问题描述

我希望解决 Dataflow 的问题。基本上,如果流数据持续不断,则管道可以正常运行,但是如果我将多个文件放在一起,我会遇到数据未加载到 bq 的问题,并且我在 bigquery 加载步骤的批处理加载子步骤中看到了 100 GB

在此处输入图像描述

            validCollection = validCollection.apply("Specify Window",
                    Window.<SData>into(FixedWindows.of(Duration.standardMinutes(5)))

                            .triggering(Repeatedly.forever(AfterProcessingTime.pastFirstElementInPane()))
                            .discardingFiredPanes() 
                            .withAllowedLateness(Duration.standardDays(1)) 

这是我上面的代码。我想知道有人能指出为什么上面没有一次向 bq 发送数据几个小时的方向吗?我认为这与我的触发有关,我需要一个时间触发或其他东西,但我的理解是,这可能会导致数据丢失,因为事后不接受捆绑包(完全可以对此进行更正)

首先十分感谢

标签: javagoogle-cloud-dataflowapache-beam

解决方案


推荐阅读