google-cloud-platform - 架构帮助 - ETL 数据流和处理的替代方案
问题描述
我正在寻找一些关于为简单的 ETL 工作构建架构的指导。我已经构建了一个解决方案,但我正在寻找改进或尝试替代架构的方法来呈现。
这是我的用例:
- 源数据以 csv 格式从移动设备上传到 Cloud Storage
- 处理数据并将其转换为 json 格式
- 使用大数据存储解决方案进行分析
- 使用可视化解决方案显示数据
为此,我构建了一个解决方案,用户将 csv 格式的源数据上传到云存储。我使用 Cloud Functions 来监控我的 Cloud Storage 存储桶中的更改,并触发 Dataflow 管道对其进行批处理,并将数据(json 格式)存储在 bigquery 中以供分析。最后,我使用 Data Studio 来可视化我的 bigquery 表中的信息。
这是我的工作流程:
云存储 -> 云函数(触发器)-> 云数据流 -> 大查询 -> 数据洞察
我可以使用哪些其他替代架构来实现这一目标?Cloud Pub/Sub 是批处理的选项吗?使用 Apache Kafka 进行管道处理怎么样?
解决方案
看起来还不错。我在 AWS 上构建了许多数据湖解决方案,其中架构或多或少相似。我偶尔会使用DynamoDB
存储信息,这些信息稍后会在Lambda
函数中使用(动态创建管道),然后再创建管道AMI Id
等Instance Types
。
您可以使用Cloud Datastore
.DynamoDB
推荐阅读
- php - 仅显示登录作者的帖子时,如何获取 a 标签来包装 the_title?
- javascript - 使用 Django 时,有没有办法在 js 或 html 中设置上下文变量的值?
- java - 如何使用 sh jython.sh -i furElise.py 使用 Java 创建我的堆(基于 Shell 的 Java 问题)?
- c - 在 pari-gp 中创建初始化文件
- javascript - 在 JavaScript 中无需硬编码即可找到数组的平均值
- ibm-mq - MQ 命令 dspmqver DO
- firebase - 从 Unity SDK 上传时无法使用 Firebase Resize Image Extension
- javascript - 如何在 Typescript 的对象中使用字符串变量值作为键名
- amazon-s3 - 如何在本地 k8s 集群中将 AWS S3 存储桶设置为持久卷
- python - django 跨站重定向 crsf 令牌安全