azure-data-factory - 数据流计算与 Databricks 的不同之处
问题描述
知道在 ADF Dataflows 中,转换将在后台的 Databricks 集群中运行,那么在同一管道中的 Databricks 笔记本上运行相同的转换会有多大不同(在成本和性能方面)?
我想这将取决于我们如何设置 Databricks 集群,但我的问题也是要了解该集群将如何在后台运行。是专用集群还是平台共享集群?
解决方案
ADF 中的每个活动都由集成运行时 (VM) 执行。如果您正在同步监控 Databricks 作业,您需要为将监控您的作业的集成运行时付费。
Databricks 中的笔记本执行将作为作业集群收费。请创建池并在 ADF 中使用该池。在数据块中,您将在池概览中看到 ADF 创建的集群的历史记录。
在创建池期间,请注意设置,因为您可能需要为空闲时间付费。最小空闲可以是 0 并且自动终止时间设置为低值。如果您有逐步执行笔记本的数据流,则重复使用相同的池可以更快、更便宜,因为 databricks 不会部署新机器并使用池中的现有机器(如果它尚未自动终止)。
推荐阅读
- javascript - redux-forms 字段级验证功能会触发与其关联的每个字段,而不仅仅是更改字段
- image - 如何改进此图像的 tesseract-OCR
- php - 使用 Symfony 4 重复插入
- amazon-dynamodb - 从 DynamoDB 迁移到 Spanner/BigTable
- haskell - 计算字符列表中的数字
- laravel - Laravel 慢插入
- angular - 如何在 Angular 4 post API 调用中删除授权承载
- c++ - 使用 avformat_open_input 打开原始音频
- objective-c - 是否可以将 NSString 转换为 NSData?
- javascript - 功能组件状态持久性