sql - 防止在 AWS Glue 中多次处理文件
问题描述
我们将胶水用于计算目的。数据流就是这样发生的landing->raw->stage->curated->Redshift
。
但是,当每天数据正确流动时 -> 数据正好翻了一番。
例如:
- 8 月 1 日:我有 100 条记录
- 8 月 2 日:我有 20 条记录
在 Redshift 中,我希望在 8 月 2 日结束时看到 120 条记录。取而代之的是 220 条记录。请向我推荐一种避免这种情况的方法。
希望根据原始和阶段的运行日期保留分区。
解决方案
您似乎想要跟踪已处理的文件。您可以通过使用Glue的作业书签功能来防止这种情况。
推荐阅读
- json - 使用 shell 脚本解析 JSON 响应
- python - Python @classmethod - 'cls' 只是编码风格要求吗?
- laravel - Laravel Eloquent 将数据从关系添加到响应
- testing - 关于使用 CodeceptJS 和 Sencha ExtJS 进行自动化测试的任何反馈
- python - 无法安装 mysqlclient
- php - 如何从zend expressive REST api应用程序中调用另一个内部端点?
- python - 如何使用计时器调用函数?
- node.js - CSV 到 Json 库在节点 js 中不起作用
- validation - 在 Postman 测试中使用哪个片段来验证标题值的一部分
- c# - 自 2019 年 10 月 31 日以来,Google 测量协议未在分析报告中显示数据