首页 > 解决方案 > 使用 Dataflow Java 代码加入嵌套结构表

问题描述

我的目标是连接两个表,其中第二个表是正常的,第一个是嵌套结构表。连接键在第一个表的嵌套结构中可用。在这种情况下,如何使用数据流 java 代码连接这两个表。WithKeys (org.apache.beam.sdk.transforms.WithKeys) 接受直接列名,它不允许 like firstTable.columnname. 有人可以帮助解决这个问题。 在此处输入图像描述

标签: google-cloud-dataflowapache-beam

解决方案


如果两个表同样大,请考虑使用此处描述的 CoGroupByKey 转换。在此操作之前,您必须将数据转换为由正确键键入的两个 PCollections。

如果一个表明显小于另一个表,则将较小的 PCollection 作为侧输入提供给 ParDo,而不是较大的 PCollection,如此处所述可能是更好的选择。


推荐阅读