首页 > 解决方案 > 架构帮助 - ETL 数据流和处理的替代方案

问题描述

我正在寻找一些关于为简单的 ETL 工作构建架构的指导。我已经构建了一个解决方案,但我正在寻找改进或尝试替代架构的方法来呈现。

这是我的用例:

  1. 源数据以 csv 格式从移动设备上传到 Cloud Storage
  2. 处理数据并将其转换为 json 格式
  3. 使用大数据存储解决方案进行分析
  4. 使用可视化解决方案显示数据

为此,我构建了一个解决方案,用户将 csv 格式的源数据上传到云存储。我使用 Cloud Functions 来监控我的 Cloud Storage 存储桶中的更改,并触发 Dataflow 管道对其进行批处理,并将数据(json 格式)存储在 bigquery 中以供分析。最后,我使用 Data Studio 来可视化我的 bigquery 表中的信息。

这是我的工作流程:

云存储 -> 云函数(触发器)-> 云数据流 -> 大查询 -> 数据洞察

我可以使用哪些其他替代架构来实现这一目标?Cloud Pub/Sub 是批处理的选项吗?使用 Apache Kafka 进行管道处理怎么样?

标签: google-cloud-platformgoogle-bigquerygoogle-cloud-storagegoogle-cloud-dataflow

解决方案


看起来还不错。我在 AWS 上构建了许多数据湖解决方案,其中架构或多或少相似。我偶尔会使用DynamoDB存储信息,这些信息稍后会在Lambda函数中使用(动态创建管道),然后再创建管道AMI IdInstance Types

您可以使用Cloud Datastore.DynamoDB


推荐阅读