google-cloud-platform - 建议 Datalake / 数据仓库 BigQuery 设置

首先，为长篇大论提前道歉，有时使用错误的术语。

希望有人可以建议我们如何在我们的组织中以最佳方式实施 BigQuery。

当前设置
目前，我们在 MySQL 中有一个数据仓库，其中包含使用雪花模式的规范化数据。

主要使用 Simego - Ouvvi 自动化服务器从其他 SQL 和 MySQL 数据库收集数据。

我们使用 Qlikview 和 PowerBI 软件来可视化这些数据。

这一切都很好，但是去年我们一直在努力采用更加事件驱动的方法。我们的目标是为组织中发生的所有事情创建事件，这意味着我们将创建更多数据。

此外，我们希望将内部数据与不同的数据源（如 Google Analytics）结合起来。

未来设置
我们已经开始使用 apache Beam 构建 Rabbit MQ 到 BigQuery 管道，将我们的数据流式传输到 BigQuery 数据集（现在称为“datalake”）。

到目前为止，我们希望一切顺利。

现在，为了能够将这些消息用于报告目的，我们需要转换这些事件消息。我们的想法是查询我们的消息并将我们需要的属性存储到一个名为“datawarehouse”的数据集中。我们想为这个仓库使用雪花模式，并带有一些嵌套字段。

但是如何做到这一点呢？我已经使用 BigQuery Web UI 进行了一些查询，我想只使用预定查询是可行的。

但是，我们更喜欢使用一个（或多个）工具来实现（按重要性排序）：

我花了很多时间在谷歌上搜索，但是有这么多工具我觉得有点不知所措。因此，非常感谢任何帮助、建议或批评！

标签： google-cloud-platformgoogle-bigquerydata-warehousedata-lake