apache-spark - Databricks 中使用的集群管理器是什么?如何更改 Databricks 集群中的执行程序数量?
问题描述
Databricks 中使用的集群管理器是什么?如何更改 Databricks 集群中的执行程序数量?
解决方案
Databricks 中使用的集群管理器是什么?
Azure Databricks 通过提供零管理云平台构建在 Spark 的功能之上,其中包括:
- 完全托管的 Spark 集群
- 用于探索和可视化的交互式工作区
- 为您喜爱的基于 Spark 的应用程序提供动力的平台
Databricks 运行时构建在 Apache Spark 之上,并且是为 Azure 云原生构建的。
借助无服务器选项,Azure Databricks完全抽象出基础结构的复杂性以及设置和配置数据基础结构所需的专业知识。无服务器选项可帮助数据科学家作为一个团队快速迭代。
对于关心生产作业性能的数据工程师,Azure Databricks 通过 I/O 层和处理层 (Databricks I/O) 的各种优化,提供了更快、更高性能的 Spark 引擎。
如何更改 Databricks 集群中的执行程序数量?
创建集群时,您可以为集群提供固定数量的工作人员,也可以为集群提供最小和最大工作人员数量。
当你提供固定大小的群集时: Azure Databricks 确保你的群集具有指定数量的工作人员。当您提供工作人员数量范围时,Databricks 会选择运行您的作业所需的适当工作人员数量。这称为自动缩放。
使用自动缩放: Azure Databricks 动态地重新分配工作人员以适应您的工作特征。管道的某些部分可能比其他部分对计算的要求更高,Databricks 会在您工作的这些阶段自动添加额外的工作人员(并在不再需要时将其删除)。
自动缩放可以更轻松地实现高集群利用率,因为您无需配置集群来匹配工作负载。这尤其适用于需求随时间变化的工作负载(例如在一天中探索数据集),但它也适用于供应要求未知的一次性较短工作负载。因此,自动缩放提供了两个优点:
- 与恒定大小的配置不足的集群相比,工作负载可以运行得更快。
- 与静态大小的集群相比,自动缩放集群可以降低总体成本。
注意:根据集群的恒定大小和工作负载,自动缩放可以同时为您提供这些好处中的一项或两项。当云提供商终止实例时,集群大小可以低于选择的最小工作人员数量。在这种情况下,Azure Databricks 会不断重试重新预配实例,以保持最少的工作人员数量。
集群自动缩放不适用于 spark-submit 作业。要了解有关自动缩放的更多信息,请参阅集群自动缩放。
希望这可以帮助。
推荐阅读
- wordpress - wordpress url后的数字不显示404
- node.js - 使用 GraphQL 和 NodeJS INSERT INTO 后 PostgreSQL“输入结束时的语法错误”
- sql - 如何在数据库链接上运行行数?
- python - Python的分叉连接模型实现?(相当于Java的ForkJoinPool)
- javascript - 如何在保护子句中使用 for 和 if?
- javascript - 显示从 server.js 到 html 的 flash 消息,特别是带有 id 的 div
- c++ - c++ 容器如何“设置”两个相等的键?
- javascript - 如何从json文件的表格中的按钮中插入链接
- sql-server - 为什么我在这个 T-SQL 查询中没有得到正确的百分比值?
- slack - 节点松弛 SDK。RTM 断开连接事件