java - 批量加载数据流中非常大的数据插入到 Big Query 步骤

问题描述

我希望解决 Dataflow 的问题。基本上，如果流数据持续不断，则管道可以正常运行，但是如果我将多个文件放在一起，我会遇到数据未加载到 bq 的问题，并且我在 bigquery 加载步骤的批处理加载子步骤中看到了 100 GB

            validCollection = validCollection.apply("Specify Window",
                    Window.<SData>into(FixedWindows.of(Duration.standardMinutes(5)))

                            .triggering(Repeatedly.forever(AfterProcessingTime.pastFirstElementInPane()))
                            .discardingFiredPanes() 
                            .withAllowedLateness(Duration.standardDays(1))

这是我上面的代码。我想知道有人能指出为什么上面没有一次向 bq 发送数据几个小时的方向吗？我认为这与我的触发有关，我需要一个时间触发或其他东西，但我的理解是，这可能会导致数据丢失，因为事后不接受捆绑包（完全可以对此进行更正）

首先十分感谢

标签： javagoogle-cloud-dataflowapache-beam

java - 批量加载数据流中非常大的数据插入到 Big Query 步骤

问题描述

解决方案

推荐阅读