首页 > 解决方案 > PySpark:如何将 GitHub 库导入 Databricks?

问题描述

我想在 Databricks 中使用这个库进行异常检测:iForest。这个库不能通过 PyPi 安装。

如何在 Databricks 中从 GitHub 安装库?我读过关于使用一种叫做“鸡蛋”的东西,但我不太明白应该如何使用它。

标签: githubimportpysparkinstallationdatabricks

解决方案


您可以克隆 repo 并创建一个 Python 包,如下所述:https ://github.com/titicaca/spark-iforest :

Step 2. 打包pyspark-iforest并通过pip安装,不需要python pkg的可以跳过这一步

cd spark-iforest/python

python setup.py sdist

pip install dist/pyspark-iforest-<version>.tar.gz

在这里,您只需要第一个命令来生成包,但您必须更改第二个命令来生成 egg 包而不是源分发包:

python3 setup.py bdist_egg

现在,您将在文件/dist夹中找到该文件:

pyspark_iforest-2.4.0-py3.7.egg

最后,在 Databricks 上,选择Create > Library并选择Python Egg以上传生成的文件。更多细节可以在这里找到。


推荐阅读