首页 > 解决方案 > 将从远程存储库获取的 python 包传递给 spark 提交/shell

问题描述

我有一个 python 库打包为远程存储库(Artifactory)中可用的 zip 文件,我想使用包的坐标(名称和版本号)将它传递给 spark-shell 或 spark-submit 的 python 路径. 我目前正在对 jar 文件做同样的事情:

spark-shell --repositories https://artifactory.com/maven --jars group:jar-name:1.0

我想做这样的事情

spark-shell --repositories https://artifactory.com/pypi --jars zipname==1.0

这显然是行不通的,因为repositories它应该是一个 maven repo 并且jars应该是一个 jar 名称

我知道我可以事先下载 zip 文件并将其添加到 中PYTHONPATH,但如果我可以通过坐标直接指向它会更好

标签: pythonpysparkpip

解决方案


我找到了方法,您可以将远程路径传递给--py-files,例如--py-files http://host:path_to_file/library.egg


推荐阅读