首页 > 解决方案 > 定期将数据从 AWS Documentdb 传输/复制到 Google Cloud Big Query

问题描述

我们正在构建一个面向客户的应用程序。对于这个应用程序,数据由第三方拥有的物联网设备捕获,并通过 API 调用从他们的服务器传输给我们。我们将这些数据存储在我们的 AWS Documentdb 集群中。我们有用户应用程序连接到这个集群,需要实时数据馈送。注:数据为时间序列数据。

问题是,对于长期数据存储和创建与利益相关者共享的分析仪表板,我们的数据治理人员要求我们每天将数据从 AWS Documentdb 集群复制/复制到他们的 Google 云平台 -> Big Query。然后我们可以直接在 BigQuery 上运行查询以执行分析并将数据发送到资源管理器或表格以创建仪表板。

我找不到任何直接的解决方案。欢迎任何想法、意见或建议。我如何实现或计划上述复制?以及如何确保有效复制数据 - 内存和定价?此外,不要打扰 AWS Documentdb 的性能,因为它支持我们面向用户的应用程序。

标签: amazon-web-servicesgoogle-bigquerytime-seriesdashboardaws-documentdb

解决方案


该解决方案需要一些自定义实现。您可以利用 Change Streams 并按时间间隔处理数据更改以发送到 Big Query,因此有一个数据复制机制供您运行分析。使用 Change Streams 的用例之一是使用 Redshift 进行分析,因此 Big Query 应该具有类似的目的。

将更改流与 Amazon DocumentDB 一起使用: https ://docs.aws.amazon.com/documentdb/latest/developerguide/change_streams.html

本文档还包含用于使用更改流事件的示例 Python 代码。


推荐阅读