首页 > 解决方案 > Azure - 为存储容器中的每个新 blob 触发 Databricks 笔记本

问题描述

我正在实施一种测试解决方案:

我在 Python 中创建了一个 Azure 数据块笔记本。此笔记本正在执行以下任务(用于测试)-

  1. 从 Pyspark 数据帧中的存储帐户读取 blob 文件。
  2. 对其进行一些改造和分析。
  3. 使用转换后的数据创建 CSV 并存储在不同的容器中。
  4. 将原始读取的 CSV 移动到不同的存档容器(以便在下次执行时不会被拾取)。

*以上步骤也可以在不同的笔记本上完成。

现在,我需要为容器中的每个新 Blob 触发此笔记本。我将实施以下编排-

容器中的新 blob -> 事件到 EventGrid 主题 -> 触发 Datafactory 管道 -> 执行 Databricks Notebook。

我们可以将文件名作为参数从 ADF 管道传递到 Databricks 笔记本。

寻找其他一些方法来进行编排流程。如果以上看起来正确且更合适,请标记为已回答。

标签: azureazure-blob-storageazure-databricksazure-eventgridazure-data-factory-pipeline

解决方案


容器中的新 blob -> 事件到 EventGrid 主题 -> 触发 Datafactory 管道 -> 执行 Databricks Notebook。

我们可以将文件名作为参数从 ADF 管道传递到 Databricks 笔记本。

寻找其他一些方法来进行编排流程。如果以上看起来正确且更合适,请标记为已回答。

您可以使用此方法。当然,你也可以走这条路:

New blob in Container-> Use built-in event trigger to trigger Datafactory pipeline-> execute Databricks Notebook

我认为您不需要介绍事件网格,因为数据工厂带有用于创建基于 blob 的事件的触发器。


推荐阅读