首页 > 解决方案 > Azure 数据工厂 - 如何使用 ForEach 循环遍历 CSV 文件中的记录

问题描述

我想要达到的目标:

文档密钥、文档名称

示例值如下(此 CSV 文件中大约有 240,000 行):

12212,银河系搭便车徒步旅行者指南 12233,MoneyBall

标签: azurecsvazure-data-factoryazure-data-flow

解决方案


这是在数据工厂中解决的一个非常有趣的问题。我看到的唯一选择是拥有一个带有 Sink 分区的数据流,该分区基于派生列输出文件。

  1. 创建一个生成唯一 blob 名称的派生列。请务必包含文件夹路径

在此处输入图像描述

  1. 在 Sink 中的 Settings 下,将“File name option”更改为“As data in column”,然后选择您在步骤 1 中创建的 FileName 列:

在此处输入图像描述

  1. 可选,但在“映射”下的接收器中,删除 FileName 列:

在此处输入图像描述 在此处输入图像描述

  1. 完成后,您应该将其保存在 Blob 存储中:

在此处输入图像描述

当然,需要注意的是文件名必须是唯一的,因此我基于示例中的第一列(我将其命名为“Id”)。我不知道 280K 文件的性能如何,但这应该会得到你想要的结果。


推荐阅读