azure - Azure 数据工厂管道不同的执行时间
问题描述
我们有大约 190 个每小时使用文件需要在 24 小时内到达数据湖,然后我们才能启动以分析活动开始的管道。我们已经在调度程序上运行了这个管道,估计时间是我们预计所有文件都已经到达但并不总是发生,因此我们需要重新运行丢失文件的切片。
有没有一种更有效的方法来处理这个问题,并且没有按计划安排管道,并由所有文件都到达数据湖的事件触发它。
TIA 输入!
解决方案
您可以在创建(或删除)新 blob 时添加事件触发器。我们在生产中使用逻辑应用程序执行此操作,但数据工厂 V2 现在似乎也支持它。好处是您不必估计适当的频率,您可以在必要时执行。
注意:您可以执行的并发管道的数量是有限制的,因此如果您一次将所有 190 个文件放入 Blob 存储中,您可能会遇到资源可用性问题。
推荐阅读
- django - React: How to send a multipart/form-data to a database
- python - 使用 LXML 从 html 文件获取 xpath - Python
- java - 如何测试我是否可以上传大型多部分文件
- java - 从 google java 中检索单词定义
- django - Django - prefetch_related GenericForeignKey 结果并对它们进行排序
- javascript - 如何将 searchBox 放入 gmaps 中?
- asp.net-core - asp-for 标签助手不写入字段
- java - 如何让我的费率值正确显示?
- javascript - 如何在选择标签中禁用自动填充
- asp.net - 使用外部js文件时获取401状态码