amazon-web-services - 持续将 Amazon RDS 同步到 Amazon S3
问题描述
我们正在使用 AWS Glue 作业将表从 Amazon RDS MySQL 复制到 Amazon S3。
我们运行了一次,它运行良好。我们如何确保它每天只写入 RDS 表中 的更改(更改或添加的行)?
解决方案
您可以尝试使用 AWS Glue 作业书签,如果它始终只是一个新数据。
AWS Glue PySpark 动态框架方法包括一个名为 的可选参数transformation_ctx
,此 transformation_ctx 参数用于识别给定操作员的作业书签中的状态信息。
例如:
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "database", table_name = "relatedqueries_csv", transformation_ctx = "datasource0")
或者,您可以在 spark sql 中使用获取整个数据,并对现有数据进行左外连接。左外部为您提供新添加和修改的记录。
推荐阅读
- dart - 如何自定义下拉按钮
- c# - C#如何在每月的第一个日期重置自动增量ID
- amazon-web-services - 我可以只使用 aws 安全组而不是完整的 VPN 连接吗?
- spring-boot - 如何在 Http inbound-gateway 中同时接受固定数量的请求?
- ldap - ApacheDS gidNumber 未在 objectClasses 中声明
- javascript - 如何使用 ngResource 从 WebAPI 获取图片以显示使用 ng-src
- angular - 从Angular 2+应用程序中的for循环内部的http调用获取数据
- ansible - 在ansible中,管理全局变量和分组变量的最佳方法是什么
- bash - 使用 bash 脚本自动更新过时的 pip3 包
- php - php img 拇指未调整大小