azure-data-factory - 数据集 ADF 与数据块的验证检查

我想对收到的数据集执行一些文件级别、字段级别的验证检查。

下面给出了一些我想要执行的检查并将任何问题捕获到审计表中。

我想将此作为模板，以便所有项目都可以采用它，在 ADF 或 Databricks 中执行这些检查是否好。如果是 ADF，对示例数据流/管道的任何引用都会非常有帮助。

谢谢，库马尔

标签： azure-data-factoryazure-data-factory-2azure-databricks

你可以使用 Azure 数据工厂管道中的各种活动来完成这些任务。

要检查文件是否存在，您可以使用Validation Activity。

在验证活动中，您指定了几件事。dataset您想要验证的存在，您sleep想要在重试之间等待timeout多长时间，以及在放弃和超时之前应该尝试多长时间。minimum size是可选的。

请务必正确设置超时值。默认值为 7 天，对于大多数作业来说太长了。

如果找到该文件，则活动报告成功。如果找不到文件，或者文件小于最小大小，那么它可能会超时，这被依赖项视为失败。

要计算匹配记录并假设您使用的是 CSV，您可以创建一个通用数据集（一列）并在您想要计入临时文件夹的任何文件夹上运行复制活动。获取复制活动的行数并保存。最后，删除临时文件夹中的所有内容。

像这样的东西：

查找活动（获取您的基本文件夹列表 - 只是为了方便重新运行）

对于每个（基本文件夹）

递归复制到临时文件夹

存储 Copy Activity.output.rowsCopied 的存储过程活动

递归删除临时文件。

要对多个数据集重复使用同一管道，您可以使您的管道动态化。参考：https ://sqlitybi.com/how-to-build-dynamic-azure-data-factory-pipelines/