bigdata - s3 数据湖如何处理数据库更新的行？

我是这个数据湖概念的新手。我想将 4 个不同的 MySQL 数据库移动到 S3 数据湖中，这样我就可以使用 Redshift 频谱来查询它。许多这些数据库都有执行更新操作的表。在 S3 中处理该问题的最佳实践是什么？或者 S3 数据湖不是解决此问题的正确解决方案。

我已经尝试编写 spark 作业来基于 created_at 和 updated_at 列提取增量数据并将其放入 S3。问题是如果有更新操作，我会有重复的行。

我这样做的另一种方法是每次都复制整个表格。

我还尝试按小时对 S3 存储桶进行分区，因此如果更新在一小时内，我将删除该存储桶并重新处理该小时。

对我来说，这似乎很hacky。这不是一个常见的用例吗？这方面的最佳实践是什么？

标签： bigdata