java - 分组数据在数据流中需要更长的时间来处理
问题描述
我正在使用 apache beam sdk 编写代码。在这里,我有一个 PCollection,其中包含有关我正在应用分组或创建一组该数据的数据的大量数据。对数据进行分组后,我在其上和 processElement 内应用 Pardo,迭代每个 tablerow(其中也有 for 循环)并处理它并创建最终 tablerow,然后将其写入 biqquery。
大约 42k 的数据需要 1 小时的时间才能加载到表中。这是最少的数据量,一旦数据量增加它就会死掉。
任何人都可以帮助我或给我一些好的建议。
谢谢。!!!
解决方案
推荐阅读
- python - 覆盖 2 个具有相同索引的 DataSeries 图
- java - 为什么我们不能从静态方法中调用非静态方法?
- django - Django:可重用应用程序测试的设置?
- scheme - 在 Racket 中的宏扩展期间评估表单
- database - 产品的基本数据库建模
- javascript - mongodb 在日期范围内查找值,但在一天中的特定时间
- ios - 如何为模型中的每个属性创建 UITableView?
- r - 如何在 R 中使用双重求和来编码这个方程?
- android - 在适用于 Algolia 的 Android Java 库中是否有等效的 transformItems?
- python - 如何有效地计算一组间隔中一组数字的存在