azure - 在 Azure 数据工厂中使用 SQL 存储过程与 Databricks

问题描述

我需要使用 ADF 管道每天将多达 50 万条记录写入 Azure SQL DB。作为可以在 SQL 存储过程活动中执行的数据转换的一部分，我进行了简单的计算。我还观察到 Databricks Notebooks 被普遍使用，尤其是。由于未来可扩展性的好处。但是在转换、管理身份验证等之后将文件放置在另一个位置是一项开销活动，除非绝对需要，否则我想避免任何过度设计。我已经测试了 SQL Stored Proc，它对于大约 50k 记录运行良好（尚未测试更高容量）。

但我仍然想知道这两个选项之间的一般建议，尤其是。来自经验丰富的 Azure 或数据工程师。谢谢

标签： azureazure-sql-database

作为一名经验丰富的（前）DBA、数据工程师和数据架构师，我看不到 Databricks 在这种情况下添加了什么。您可能需要扩展的这部分体系结构是INSERTsAzure SQL 数据库的目标，它非常容易通过门户或 REST API 手动扩展，如果需要的话。如果需要调整插入，请考虑加载到堆和分区切换等技术。

在架构中添加额外组件然后将数据通过的开销必须是值得的，再加上在运行数据库的同时启动 Spark 集群的额外成本。

Databricks 是一个极好的工具，有很多很好的用例，例如高级数据转换（即你不能用 SQL 做的事情）、机器学习、流媒体和其他。看看这个免费资源以获得一些想法：

https://databricks.com/p/ebook/the-big-book-of-data-science-use-cases

azure - 在 Azure 数据工厂中使用 SQL 存储过程与 Databricks

问题描述

解决方案

推荐阅读