amazon-s3 - S3 上的 ETL:重复行:如何更新旧条目?
问题描述
在我的 ETL 导入期间,一些预同步条目由我的源多次提供(因为由服务更新),因此在 AWS 中多次导入。我想实现一个结构,如果它已经存在则覆盖一个条目(接近键值存储的几行更新两次)。
我的要求需要对 1 TB 的数据进行操作并在胶水(或潜在的红移)上进行操作。
我实现的解决方案如下:
- 我从我的来源读取数据
- 通过选择内容的唯一标识符作为文件名,我将每个条目保存在不同的文件中。
- 我用胶水爬虫在 S3 上扫描新文件来索引我的原始数据
- 我运行胶水作业以将原始数据转换为符合 OLAP 的格式(镶木地板)。
这是正确的方法吗?即使我担心原始数据中有大量单独的文件(每个条目 1 个文件),这对我个人来说似乎是正确的。
谢谢,
雨果
解决方案
推荐阅读
- typescript - 在 TypeScript 中获取项目目录的相对路径
- git - 在 GitHub 中镜像一个 repo,但遇到:![remote denied] master -> master (pre-receive hook denied)
- javascript - 我的 webrtc 在我的 sdp 中发送 recvonly 方向
- gradle - 当我的所有测试都在单独的子模块中时,如何使用 gradle 插件获取 Jacoco 覆盖率报告
- angular - 如何使用 Angular 在 Livechat SDK 的 vs 代码中获得智能?
- javascript - Chart js是否可以在图例和图表之间分配空间?
- javascript - 为什么 Reflect.construct(Date, [], function () {}) 的结果是 [object Date]?
- python - sklearn 中 GridSearchCV 的自定义估计器
- python - 如何用 Pythonese 说 - 做某事,除非它导致错误(不诉诸多级 try/execpt 块)
- javascript - 关注 HTML 隐藏组件,会发生什么?