sql - 合并来自 BigQuery 的加载数据
问题描述
我有一个输入表:input
和一个或多个maptables
,其中输入包含多个标识符的数据和彼此堆叠的日期。架构如下:
#input
Id: string (might contain empty values)
Id2: string (might contain empty values)
Id3: string (might contain empty values)
Date: datetime
Value: number
#maptable_1
Id: string
Id2: string
Target_1: string
#maptable_2
Id3: string
Target_2: string
我现在要做的是运行一个管道,该管道为每个date/(id, id2, id3)
组合加载数据,input
并在 python 中针对一个或多个maptables
(都作为 DataFrame)应用左合并。output
然后,我将结果流式传输到以架构命名的第三个表:
#output
Id: string
Id2: string
Id3: string
Date: datetime
Value: number
Target_1: string (from maptable_1)
Target_2: string (from maptable_2)
Target_x: ...
现在我在想这不是很有效。如果我从映射表中更改一个值,我必须为每个date/(id, id2, id3)
组合重做所有管道。
因此我想知道是否可以在加载数据时直接应用左合并?这样的查询会是什么样子?
在多个映射表和目标列的情况下,这样做是否也有好处?查询不会变得太复杂或不可读,特别是因为 id 列不一样?
解决方案
这样的查询会是什么样子?
以下是 BigQuery 标准 SQL
INSERT `project.dataset.output`
SELECT *
FROM `project.dataset.input` i
LEFT JOIN `project.dataset.maptable_1` m1 USING(id, id2)
LEFT JOIN `project.dataset.maptable_2` m2 USING(id3)
在多个映射表和目标列的情况下......
如果您的所有地图表都与您问题中的两个地图相同/相似 - 在这种情况下,每个额外地图只是额外的 LEFT JOIN
推荐阅读
- python - 如何在Django中使用注释找到特定值和总值之间的比率并将其存储在每个实体中?
- security - 用GraphicsMagick等效的policy.xml文件来处理像素洪水DOS攻击
- protractor - 在量角器中找不到 css 元素
- apache - Shibboleth 的反向代理不发送请求 POST
- java - CSV 文件中的数据挖掘和模式识别 (Python ML)
- office-js - 在 word 中使用 office-js 为段落编号
- javascript - 更改背景 Javascript 项目
- c# - 用字母变量替换数学方程中的浮点数
- python - 如何通过使用运行中位数改进 Python 3.X 中的高斯/正态拟合?
- angular - 是否可以通过 NgTemplateOutlet 订阅更改?