首页 > 解决方案 > s3 数据湖如何处理数据库更新的行?

问题描述

我是这个数据湖概念的新手。我想将 4 个不同的 MySQL 数据库移动到 S3 数据湖中,这样我就可以使用 Redshift 频谱来查询它。许多这些数据库都有执行更新操作的表。在 S3 中处理该问题的最佳实践是什么?或者 S3 数据湖不是解决此问题的正确解决方案。

我已经尝试编写 spark 作业来基于 created_at 和 updated_at 列提取增量数据并将其放入 S3。问题是如果有更新操作,我会有重复的行。

我这样做的另一种方法是每次都复制整个表格。

我还尝试按小时对 S3 存储桶进行分区,因此如果更新在一小时内,我将删除该存储桶并重新处理该小时。

对我来说,这似乎很hacky。这不是一个常见的用例吗?这方面的最佳实践是什么?

标签: bigdata

解决方案


推荐阅读