bigdata - s3 数据湖如何处理数据库更新的行?
问题描述
我是这个数据湖概念的新手。我想将 4 个不同的 MySQL 数据库移动到 S3 数据湖中,这样我就可以使用 Redshift 频谱来查询它。许多这些数据库都有执行更新操作的表。在 S3 中处理该问题的最佳实践是什么?或者 S3 数据湖不是解决此问题的正确解决方案。
我已经尝试编写 spark 作业来基于 created_at 和 updated_at 列提取增量数据并将其放入 S3。问题是如果有更新操作,我会有重复的行。
我这样做的另一种方法是每次都复制整个表格。
我还尝试按小时对 S3 存储桶进行分区,因此如果更新在一小时内,我将删除该存储桶并重新处理该小时。
对我来说,这似乎很hacky。这不是一个常见的用例吗?这方面的最佳实践是什么?
解决方案
推荐阅读
- java - 获取异常 java.sql.SQLException: ORA-03115: 不支持的网络数据类型或表示
- javascript - 如何在 express nodejs 上提取路由名称(路径)(在通话期间,来自 req)
- types - 相等的奇怪编译错误:(没有方法'equals(Any?):布尔'可用)
- macos - dotnet:在 Mac 中找不到命令
- google-app-engine - 设备 google-app-engine 上没有剩余空间
- sql - 使用最小日期获取另一列的最小日期和第一个文本
- gcc - Conda gcc 不会替换系统 gcc
- html - Bootstrap cols 不相邻
- html - 标签略低于文本输入
- sql - 如何将两个表合并在一起,选择具有较高值的列,而不能使用 MERGE 语句?