首页 > 解决方案 > 如何在 Azure 数据仓库中对大型数据集执行数据工厂转换

问题描述

我们有使用 ADF 执行转换的数据仓库表。

如果我有一组 ADW 表,并且我需要对它们执行转换以将它们放回 ADW,我是否应该将转换保存到 Azure Blob 存储中?或直接进入目标表。

ADW 表超过 1 亿条记录。

使用 Blob 存储作为中间部分是否可以接受。

标签: azureazure-blob-storageazure-table-storageazure-data-factory

解决方案


是的,您最好使用使用 Blob 存储作为中间部分。

您不能将表从 SQL DW(Source) 直接复制到同一个 SQL DW(Sink)!如果你试过这个,你会遇到问题:

  1. 复制数据:数据映射出错,将数据复制到同一张表,不新建。
  2. 复制活动:复制活动需要表格。

如果要将 SQL DW 表中的数据复制到具有 Data Factor 的新表中,则至少需要两个步骤:

  1. 将数据从 SQL DW 表复制到 Blob 存储(创建 csv 文件)。
  2. 将这些 csv 文件加载到 SQL DW 并创建新表。

参考教程:

数据工厂擅长传输大数据。参考数据工厂的复制性能。我认为它可能比SELECT - INTO Clause (Transact-SQL)更快。

希望这可以帮助。


推荐阅读