首页 > 解决方案 > 数据流计算与 Databricks 的不同之处

问题描述

知道在 ADF Dataflows 中,转换将在后台的 Databricks 集群中运行,那么在同一管道中的 Databricks 笔记本上运行相同的转换会有多大不同(在成本和性能方面)?

我想这将取决于我们如何设置 Databricks 集群,但我的问题也是要了解该集群将如何在后台运行。是专用集群还是平台共享集群?

标签: azure-data-factorydatabricksazure-data-flow

解决方案


ADF 中的每个活动都由集成运行时 (VM) 执行。如果您正在同步监控 Databricks 作业,您需要为将监控您的作业的集成运行时付费。

Databricks 中的笔记本执行将作为作业集群收费。请创建池并在 ADF 中使用该池。在数据块中,您将在池概览中看到 ADF 创建的集群的历史记录。

在创建池期间,请注意设置,因为您可能需要为空闲时间付费。最小空闲可以是 0 并且自动终止时间设置为低值。如果您有逐步执行笔记本的数据流,则重复使用相同的池可以更快、更便宜,因为 databricks 不会部署新机器并使用池中的现有机器(如果它尚未自动终止)。

在池中的 ADF 作业屏幕截图和最小空闲设置中: 在此处输入图像描述


推荐阅读