github - PySpark:如何将 GitHub 库导入 Databricks?
问题描述
我想在 Databricks 中使用这个库进行异常检测:iForest。这个库不能通过 PyPi 安装。
如何在 Databricks 中从 GitHub 安装库?我读过关于使用一种叫做“鸡蛋”的东西,但我不太明白应该如何使用它。
解决方案
您可以克隆 repo 并创建一个 Python 包,如下所述:https ://github.com/titicaca/spark-iforest :
Step 2. 打包pyspark-iforest并通过pip安装,不需要python pkg的可以跳过这一步
cd spark-iforest/python
python setup.py sdist
pip install dist/pyspark-iforest-<version>.tar.gz
在这里,您只需要第一个命令来生成包,但您必须更改第二个命令来生成 egg 包而不是源分发包:
python3 setup.py bdist_egg
现在,您将在文件/dist
夹中找到该文件:
pyspark_iforest-2.4.0-py3.7.egg
最后,在 Databricks 上,选择Create > Library并选择Python Egg以上传生成的文件。更多细节可以在这里找到。
推荐阅读
- sql-server - 从 varchar(500) 获取范围数据值
- database - 实体框架 DbContext 是否应该在权限低于迁移的用户下运行?
- typescript - 下一个 js 中的 Rust wasm
- privileges - Tizen Native Service 不要求应用程序启动权限
- java - Java Hibernate with Postgresql:将字符串作为文本传递给@Query 过程调用 - 本机查询
- python - Python + Selenium Web 驱动程序:抓取表数据返回不完整的结果
- angular - 将背景颜色更改为使用日历插件的边框,heatMapColor="#5fc1ea"
- git - Git:如何忽略所有目标并构建子目录?
- java - 当用户在该设备中单击 pdf 时,我的应用程序应该出现
- python - 将 CNN 的输出调整为 TimeDistributed tensorflow 层的输入