首页 > 解决方案 > 在 Azure 数据工厂中使用 SQL 存储过程与 Databricks

问题描述

我需要使用 ADF 管道每天将多达 50 万条记录写入 Azure SQL DB。作为可以在 SQL 存储过程活动中执行的数据转换的一部分,我进行了简单的计算。我还观察到 Databricks Notebooks 被普遍使用,尤其是。由于未来可扩展性的好处。但是在转换、管理身份验证等之后将文件放置在另一个位置是一项开销活动,除非绝对需要,否则我想避免任何过度设计。我已经测试了 SQL Stored Proc,它对于大约 50k 记录运行良好(尚未测试更高容量)。

但我仍然想知道这两个选项之间的一般建议,尤其是。来自经验丰富的 Azure 或数据工程师。谢谢

标签: azureazure-sql-database

解决方案


作为一名经验丰富的(前)DBA、数据工程师和数据架构师,我看不到 Databricks 在这种情况下添加了什么。您可能需要扩展的这部分体系结构是INSERTsAzure SQL 数据库的目标,它非常容易通过门户或 REST API 手动扩展,如果需要的话。如果需要调整插入,请考虑加载到堆和分区切换等技术。

在架构中添加额外组件然后将数据通过的开销必须是值得的,再加上在运行数据库的同时启动 Spark 集群的额外成本。

Databricks 是一个极好的工具,有很多很好的用例,例如高级数据转换(即你不能用 SQL 做的事情)、机器学习、流媒体和其他。看看这个免费资源以获得一些想法:

https://databricks.com/p/ebook/the-big-book-of-data-science-use-cases


推荐阅读