amazon-web-services - 定期将数据从 AWS Documentdb 传输/复制到 Google Cloud Big Query
问题描述
我们正在构建一个面向客户的应用程序。对于这个应用程序,数据由第三方拥有的物联网设备捕获,并通过 API 调用从他们的服务器传输给我们。我们将这些数据存储在我们的 AWS Documentdb 集群中。我们有用户应用程序连接到这个集群,需要实时数据馈送。注:数据为时间序列数据。
问题是,对于长期数据存储和创建与利益相关者共享的分析仪表板,我们的数据治理人员要求我们每天将数据从 AWS Documentdb 集群复制/复制到他们的 Google 云平台 -> Big Query。然后我们可以直接在 BigQuery 上运行查询以执行分析并将数据发送到资源管理器或表格以创建仪表板。
我找不到任何直接的解决方案。欢迎任何想法、意见或建议。我如何实现或计划上述复制?以及如何确保有效复制数据 - 内存和定价?此外,不要打扰 AWS Documentdb 的性能,因为它支持我们面向用户的应用程序。
解决方案
该解决方案需要一些自定义实现。您可以利用 Change Streams 并按时间间隔处理数据更改以发送到 Big Query,因此有一个数据复制机制供您运行分析。使用 Change Streams 的用例之一是使用 Redshift 进行分析,因此 Big Query 应该具有类似的目的。
将更改流与 Amazon DocumentDB 一起使用: https ://docs.aws.amazon.com/documentdb/latest/developerguide/change_streams.html
本文档还包含用于使用更改流事件的示例 Python 代码。
推荐阅读
- php - 使用按钮通过表单将 $row['id'] 发送到另一个 PHP
- html - 将 CSS 规则链接到子工作表
- r - R中的脚本“网球共同对手”
- javascript - reactJs中如何调用另一个组件的函数
- php - Laravel 异步上传文件
- spring - authentication.getPrincipal() 始终是 String 而不是 UserDetails
- javascript - 在 JavaScript 中使用递归函数时如何处理 Promise
- spring-boot - 将 Spring Boot oAuth2 应用程序作为资源服务器运行并提供 Web 内容
- django - django-rest 将数据数组保存到数据库
- rest - 如何在单体架构中实现 Rest API