首页 > 解决方案 > 持续将 Amazon RDS 同步到 Amazon S3

问题描述

我们正在使用 AWS Glue 作业将表从 Amazon RDS MySQL 复制到 Amazon S3。

我们运行了一次,它运行良好。我们如何确保它每天只写入 RDS 表中 的更改(更改或添加的行)?

标签: amazon-web-servicesaws-glue

解决方案


您可以尝试使用 AWS Glue 作业书签,如果它始终只是一个新数据。

AWS Glue PySpark 动态框架方法包括一个名为 的可选参数transformation_ctx,此 transformation_ctx 参数用于识别给定操作员的作业书签中的状态信息。

例如:

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "database", table_name = "relatedqueries_csv", transformation_ctx = "datasource0")

或者,您可以在 spark sql 中使用获取整个数据,并对现有数据进行左外连接。左外部为您提供新添加和修改的记录。


推荐阅读