首页 > 解决方案 > 在数据工厂中创建 Azure Batch 活动

问题描述

我想在我的数据工厂管道中创建一个 Azure Batch 活动,我设置了一个触发器来检查过去 24 小时内是否有新的“最后修改”的 blob。
在处理大文件时,我想在同一台机器上一次利用 Azure Batch 和多进程 2 个 blob 的强大功能。
这是我到目前为止所做的管道: 第二个活动通过创建 {container name}/{blob} 的列表变量来操纵前一个活动的输出。 如何将我的 blob 地址分成小批,以便将它们提供给下一批活动? 谢谢
在此处输入图像描述


标签: azureazure-data-factoryazure-data-factory-2azure-batch

解决方案


默认情况下,'ForEach' 活动并行运行,因此默认情况下它将启动至少 20 个线程,最多 50 个,具体取决于您的输入进程。确保 ForEach 上的“顺序”框未选中

ForEach 并行模式

如果您需要分组为更大的组,例如每批 3 个,每批 5 个,那么这可能会有点棘手,我会寻找例如存储过程活动、Databricks 笔记本或 Synapse 笔记本来完成稍微复杂的工作为了我。


推荐阅读