首页 > 解决方案 > S3 上的 ETL:重复行:如何更新旧条目?

问题描述

在我的 ETL 导入期间,一些预同步条目由我的源多次提供(因为由服务更新),因此在 AWS 中多次导入。我想实现一个结构,如果它已经存在则覆盖一个条目(接近键值存储的几行更新两次)。

我的要求需要对 1 TB 的数据进行操作并在胶水(或潜在的红移)上进行操作。

我实现的解决方案如下:

这是正确的方法吗?即使我担心原始数据中有大量单独的文件(每个条目 1 个文件),这对我个人来说似乎是正确的。

谢谢,

雨果

标签: amazon-s3aws-lambdaetlaws-glue

解决方案


推荐阅读