apache-spark - 将 GitHub 存储库导入 Databricks 社区版
问题描述
我正在尝试从 GitHub 的公共存储库中导入一些数据,以便从我的 Databricks 笔记本中使用它。
到目前为止,我尝试按照此处所述将我的 Databricks 帐户与我的 GitHub 连接,但没有结果,因为似乎 GitHub 支持带有一些非社区许可。当我尝试设置 GitHub 集成所需的 GitHub 令牌时,我收到以下消息:
之前在官方 Databricks 论坛上也提出过同样的问题。
在 databricks 社区版上导入和存储 GitHub 存储库的最佳方式是什么?
解决方案
我设法使用shell
笔记本本身的命令解决了这个问题。第一次git clone
通过 HTTPS 检索存储库:
%sh git clone https://github.com/SomeDataRepo/TheData.git --depth 1 --branch=master /dbfs/FileStore/TheData/
为什么不使用 SSH?好吧,SSH 需要设置 SSH 密钥,这在我的情况下是不必要的。
最后,每次我需要新版本的数据时,我都会git pull
在执行程序之前执行:
%sh git -C /dbfs/FileStore/TheData/ pull
推荐阅读
- multithreading - Iterator.continually:对第一个元素进行特殊处理
- python - 如何在不替换的情况下使用 numpy.random.choice 中的权重来获得所需的样本
- python - 在熊猫数据框行中查找第 K 个最小数的方法
- python - 了解 Python 相对 Epsilon
- php - 如何在会话中创建表单,并将该表单的数据与注册用户相关联?
- r - 用“。”将一列分成两列。分隔符 R
- python - 转换列表中嵌套元素的数据类型
- bash - Makefile中的Bash'直到'循环语法错误
- python - Python - 使用 Tkinter 的对象没有属性错误
- sql - 为什么“ORDER BY”可以在执行时使用不存在的列?