首页 > 解决方案 > 按多列从 GBQ 表中删除重复项的最有效方法

问题描述

在此处输入图像描述

我有下表(见上文)。

什么是通过 appId 和 clientId 删除重复项的最有效方法,因此结果表仅包含具有最小 DIFF 的那些行

例如:260848 应该是 yandex 作为源

谢谢!

标签: functiongoogle-bigqueryduplicatesanalytics

解决方案


以下是 BigQuery 标准 SQL

#standardSQL
SELECT AS VALUE ARRAY_AGG(t ORDER BY DIFF LIMIT 1)[OFFSET(0)]
FROM `project.dataset.table` t
GROUP BY appId, clientId

推荐阅读