sql - SSIS 数据质量控制方法
问题描述
我每个月都会得到一组月度数据,大部分都是相同的列。我正在使用导入/导出向导手动加载这些文件。通常,我会使用日期戳加载此数据,以便可以将上个月提供的旧数据与新数据进行比较。如果差异小于 5%,我会保留新数据,否则,我必须返回供应商并要求解释差异。
我正在尝试在 SSIS 中自动执行此操作,但不确定如何执行 QC 部分。有什么建议么?
解决方案
我推荐的单个 SSIS 包中的工作流程。
- 截断登台表
SQL Task
。 - 将传入的月度文件加载到临时表中。如果存在布局问题,则包失败
DFT
。 - 将登台表与上个月负载的记录进行比较
SQL Task, Expression Task
。如果差异高于阈值,请通过电子邮件发送给供应商Send Email Task
。我更喜欢的另一个通知选项是将记录插入错误记录表,然后使用 SSRS 发送错误通知。一般来说,我不喜欢在 SSIS 中执行非 sql 任务。 - 将 Staging 表记录插入到最终表中
DFT
,并在导入日志表中插入一条记录SQL Task
。
推荐阅读
- neo4j - 使用 Neo4j 为我的数据库构建和扩展具有实体提取的知识图
- java - JarFileFactory 缓存 jar 文件
- anypoint-studio - 如何检查 Mulesoft 中请求正文的有效负载字段是否为空?
- ruby - Microsoft Graph API - 发送电子邮件 - NoPermissionsInAccessToken
- tensorflow - TensorFlow 为 golang 服务 SharedBatchScheduler
- java - 如何通过 Stripe SDK 确认支付意图?
- android - Android edittext 丢失并重复通过 TCP 套接字接收的文本
- android - Flutter Push Notification onLaunch 无限调用
- html - Thymeleaf 中的片段
- html - Bootsrap 4 列表现为表格