azure - Azure - 为存储容器中的每个新 blob 触发 Databricks 笔记本
问题描述
我正在实施一种测试解决方案:
我在 Python 中创建了一个 Azure 数据块笔记本。此笔记本正在执行以下任务(用于测试)-
- 从 Pyspark 数据帧中的存储帐户读取 blob 文件。
- 对其进行一些改造和分析。
- 使用转换后的数据创建 CSV 并存储在不同的容器中。
- 将原始读取的 CSV 移动到不同的存档容器(以便在下次执行时不会被拾取)。
*以上步骤也可以在不同的笔记本上完成。
现在,我需要为容器中的每个新 Blob 触发此笔记本。我将实施以下编排-
容器中的新 blob -> 事件到 EventGrid 主题 -> 触发 Datafactory 管道 -> 执行 Databricks Notebook。
我们可以将文件名作为参数从 ADF 管道传递到 Databricks 笔记本。
寻找其他一些方法来进行编排流程。如果以上看起来正确且更合适,请标记为已回答。
解决方案
容器中的新 blob -> 事件到 EventGrid 主题 -> 触发 Datafactory 管道 -> 执行 Databricks Notebook。
我们可以将文件名作为参数从 ADF 管道传递到 Databricks 笔记本。
寻找其他一些方法来进行编排流程。如果以上看起来正确且更合适,请标记为已回答。
您可以使用此方法。当然,你也可以走这条路:
New blob in Container
-> Use built-in event trigger to trigger Datafactory pipeline
-> execute Databricks Notebook
。
我认为您不需要介绍事件网格,因为数据工厂带有用于创建基于 blob 的事件的触发器。
推荐阅读
- django - Python + 尝试减少 I/O 操作以将数据存储在 Table 中
- javascript - 如何在节点 js 中获取全天小时日期格式
- java - 如何在 java 中更新文本文件的特定部分?
- javascript - 如何使用 jQuery 添加和删除列表项?
- python - 在 pyspark MLlib 决策树分类器中声明特征和目标
- react-native - 对 RecoilRoot 的多次重新渲染进行本机反应和反冲
- android - 此应用程序使用的软件包含对用户的安全漏洞或允许在未经适当披露的情况下收集用户数据
- c# - 用随机变量实例化 scriptableobject
- reactjs - 使用反应挂钩去抖动或节流
- zsh - 如何在不选择每个命令的每一行的情况下滚动浏览 Zsh 历史记录中的多行命令?