首页 > 解决方案 > 寻找一种替代解决方案来处理从 Azure Blob 到 Azure SQL DB 的数万个 JSON

问题描述

我目前开发的管道利用 Azure 数据工厂进行编排,利用 Azure DataBricks 的计算来执行以下操作……我在 15 分钟内实时将数以万计的单记录 json 文件接收到 Azure Blob在此基础上,我检查文件夹中是否有任何新文件,一旦发现,我使用 Databricks 将它们加载到数据框中,并将它们加载到 SQL DB 中的单个文件中,然后让其他 ADF 作业触发存储过程,然后将我的数据转换为最终的 SQL 表...... . 我们希望摆脱 Databricks,因为我们不是因为它的真正功能而使用它,但当然要支付 Databricks 成本。寻找其他解决方案的想法,以定期(即 15 分钟)将数以万计的 json 加载到 SQL DB 中(最少或没有转换)。

标签: azureetlpipelinedatabricks

解决方案


这里有几个想法:

  • 使用 Azure Functions + Blob Trigger / Event Grid 实时处理 JSON 文件(每次有新的 JSON 文件到达,都会触发你的函数)。然后您可以插入到最终表或临时表中。

  • 另一个想法是结合 Azure Functions + Blob Trigger / Event Grid 将数据下沉到数据湖。您可以使用 ADF 将其下沉到 SQL 最终表中。


推荐阅读