首页 > 解决方案 > 使用 Databricks 连接

问题描述

我想使用我最喜欢的编辑器在本地编辑 Databricks 笔记本,然后使用Databricks Connect在我通常通过 Web 界面访问的 Databricks 集群上远程运行笔记本。

不幸的是,在网上搜索了几天后,我找不到有关 Databricks Connect 的详细文档。

databricks-connect configure按照上面 PyPI 页面上的建议运行,但我不确定某些设置是什么。有人可以引导我完成这个(比如在网络界面中的哪里可以找到这些值)或提供指向正确文档的链接吗?

我知道一些设置应该是什么,但databricks-connect configure为了完整性和他人的利益,我将包括运行时出现的所有内容。

Databricks Host
Databricks Token
Cluster ID(例如,0921-001415-jelly628
Org ID(仅限 Azure,参见?o=orgIdURL)
Port(是spark.databricks.service.port吗?)

另外,我认为这是我最感兴趣的,我是否需要对笔记本本身进行任何更改,例如定义 SparkContext 之类的?如果是这样,用什么配置?

我应该如何运行它?运行后databricks-connect configure,似乎没有任何“魔法”发生。当我运行时jupyter notebook,它仍然在本地运行,并且似乎不知道将其转发到远程集群。

更新: 如果您想想一些更具体的东西,在 Databricks 的 Web 界面中,dbutils是一个预定义的对象。远程运行笔记本时如何引用它?

标签: jupyter-notebookdatabricksazure-databricks

解决方案


我已将另一个人的回复标记为答案,但由于某种原因,该回复现在消失了。

出于我的目的,官方用户指南有效: https ://docs.azuredatabricks.net/user-guide/dev-tools/db-connect.html


推荐阅读