首页 > 解决方案 > BigQuery 联合查询的性能如何?

问题描述

我正在重新设计一项服务,以便可以使用 BigQuery 搜索大型数据集。最初,我打算每天晚上将数据从 CloudSQL 流式传输到 BigQuery,但在研究阶段我开始意识到联合查询。也许我遗漏了一些明显的东西,但我似乎找不到任何特别指出 BigQuery 联合查询是否与普通 BigQuery 查询一样具有性能的东西。它似乎专注于在多个系统中存储数据和联合查询的问题,从而更容易将 MySQL(或 Postgres)数据与 BigQuery 数据连接起来。

联合查询是否利用了 BigQuery 的全部或大部分优势(使用数千台机器执行扫描),还是不可能?谷歌说“*可能不如查询 BigQuery 表中的数据”,但有没有人使用过它并发现它接近或相似?

标签: google-app-enginegoogle-bigquery

解决方案


性能受限于您的 CloudSQL 实例的容量。那是你的瓶颈。

当然,您已经阅读过这篇文章,但从不同部分收集信息,您可以看到实际发生的情况如下。

BigQuery 将发送要在您的 CloudSQL 实例上执行的查询。查询结果将由 BigQuery 读取并存储在临时表中。

请记住,这意味着您在 CloudSQL 实例中添加了一些负载,并且您还需要在 BigQuery 中读取字节(并为其付费)。

这明显不同于使用 StitchData 或 Fivetran 等商业工具之一在 BigQuery 中复制 CloudSQL 数据,然后直接在 BigQuery 中查询。


推荐阅读