azure - 寻找一种替代解决方案来处理从 Azure Blob 到 Azure SQL DB 的数万个 JSON
问题描述
我目前开发的管道利用 Azure 数据工厂进行编排,利用 Azure DataBricks 的计算来执行以下操作……我在 15 分钟内实时将数以万计的单记录 json 文件接收到 Azure Blob在此基础上,我检查文件夹中是否有任何新文件,一旦发现,我使用 Databricks 将它们加载到数据框中,并将它们加载到 SQL DB 中的单个文件中,然后让其他 ADF 作业触发存储过程,然后将我的数据转换为最终的 SQL 表...... . 我们希望摆脱 Databricks,因为我们不是因为它的真正功能而使用它,但当然要支付 Databricks 成本。寻找其他解决方案的想法,以定期(即 15 分钟)将数以万计的 json 加载到 SQL DB 中(最少或没有转换)。
解决方案
这里有几个想法:
使用 Azure Functions + Blob Trigger / Event Grid 实时处理 JSON 文件(每次有新的 JSON 文件到达,都会触发你的函数)。然后您可以插入到最终表或临时表中。
另一个想法是结合 Azure Functions + Blob Trigger / Event Grid 将数据下沉到数据湖。您可以使用 ADF 将其下沉到 SQL 最终表中。