首页 > 解决方案 > 防止在 AWS Glue 中多次处理文件

问题描述

我们将胶水用于计算目的。数据流就是这样发生的landing->raw->stage->curated->Redshift

但是,当每天数据正确流动时 -> 数据正好翻了一番。

例如:

在 Redshift 中,我希望在 8 月 2 日结束时看到 120 条记录。取而代之的是 220 条记录。请向我推荐一种避免这种情况的方法。

希望根据原始和阶段的运行日期保留分区。

标签: sqlamazon-web-servicesaws-lambdaetlaws-glue

解决方案


您似乎想要跟踪已处理的文件。您可以通过使用Glue的作业书签功能来防止这种情况。


推荐阅读