首页 > 解决方案 > 将 GitHub 存储库导入 Databricks 社区版

问题描述

我正在尝试从 GitHub 的公共存储库中导入一些数据,以便从我的 Databricks 笔记本中使用它。

到目前为止,我尝试按照此处所述将我的 Databricks 帐户与我的 GitHub 连接,但没有结果,因为似乎 GitHub 支持带有一些非社区许可。当我尝试设置 GitHub 集成所需的 GitHub 令牌时,我收到以下消息:

在此处输入图像描述

之前在官方 Databricks 论坛上也提出过同样的问题。

在 databricks 社区版上导入和存储 GitHub 存储库的最佳方式是什么?

标签: apache-sparkgithubdatabricks

解决方案


我设法使用shell笔记本本身的命令解决了这个问题。第一次git clone通过 HTTPS 检索存储库:

%sh git clone https://github.com/SomeDataRepo/TheData.git --depth 1 --branch=master /dbfs/FileStore/TheData/

为什么不使用 SSH?好吧,SSH 需要设置 SSH 密钥,这在我的情况下是不必要的。

最后,每次我需要新版本的数据时,我都会git pull在执行程序之前执行:

%sh git -C /dbfs/FileStore/TheData/ pull

推荐阅读