首页 > 解决方案 > 合并来自 BigQuery 的加载数据

问题描述

我有一个输入表:input和一个或多个maptables,其中输入包含多个标识符的数据和彼此堆叠的日期。架构如下:

#input
Id: string (might contain empty values)
Id2: string (might contain empty values)
Id3: string (might contain empty values)
Date: datetime
Value: number

#maptable_1
Id: string
Id2: string
Target_1: string

#maptable_2
Id3: string
Target_2: string

我现在要做的是运行一个管道,该管道为每个date/(id, id2, id3)组合加载数据,input并在 python 中针对一个或多个maptables(都作为 DataFrame)应用左合并。output然后,我将结果流式传输到以架构命名的第三个表:

#output
Id: string
Id2: string
Id3: string 
Date: datetime
Value: number
Target_1: string (from maptable_1)
Target_2: string (from maptable_2)
Target_x: ...

现在我在想这不是很有效。如果我从映射表中更改一个值,我必须为每个date/(id, id2, id3)组合重做所有管道。

标签: sqlgoogle-bigquery

解决方案


这样的查询会是什么样子?

以下是 BigQuery 标准 SQL

INSERT `project.dataset.output`  
SELECT *
FROM `project.dataset.input` i
LEFT JOIN `project.dataset.maptable_1` m1 USING(id, id2)
LEFT JOIN `project.dataset.maptable_2` m2 USING(id3)  

在多个映射表和目标列的情况下......

如果您的所有地图表都与您问题中的两个地图相同/相似 - 在这种情况下,每个额外地图只是额外的 LEFT JOIN


推荐阅读