sqoop - 使用 Informatica BDM 的 Sqoop 增量负载
问题描述
我是 Informatica BDM 的新手。我有一个用例,我必须每天将数据从 RDBMS 增量(100 个表)导入 Hive。有人可以用最好的方法指导我实现这一目标吗?
谢谢, 苏米特
解决方案
Hadoop 是一次写入多次读取 (WORM) 方法,增量负载并非易事。您可以遵循以下指南并验证您当前的要求
- 如果表是小型/中型并且没有太多记录,最好刷新整个表
- 如果表太大,增量负载有add/update/delete操作,可以考虑staging delta,执行join操作重新创建数据集。
- 对于大表和大增量,您可以为所有最新记录创建一个版本号,每个增量可能会来到一个新目录,并且应该创建一个视图以获取最新版本以进行进一步处理。这避免了繁重的合并操作。
如果删除操作没有作为更改出现,那么您还需要考虑如何对其采取行动,在这种情况下,您需要完全刷新。
推荐阅读
- jenkins - 通过 ec2-plugin 以编程方式启动额外的 Jenkins 节点
- python - “来自通配符导入的未使用的导入操作系统”
- python-3.x - 使用 Dropbox API 和 python 列出文件夹和子文件夹中的所有文件
- try-catch - 尝试无例外
- algorithm - 无向图的深度优先搜索产生相同数量的树边
- java - 读取和写入 Firebase RT 不会更新 UI 或后端
- game-maker - 如何停止motion_add?
- javascript - Angular 工厂 $scope 变得无界
- asp.net-mvc - ASP.NET Core 默认防止小数舍入
- scala - 根据可选值编写更新查询