首页 > 解决方案 > 分发用于 pyspark 的 jar

问题描述

我已经构建了一个可以从 pyspark 使用的 jar,方法是添加它${SPARK_HOME}/jars并使用它调用它

spark._sc._jvm.com.mypackage.myclass.mymethod()

但是我想做的是将该 jar 捆绑到 python 轮中,以便有人可以将 jar 安装到他们正在运行的 pyspark/jupyter 会话中。我对python包装不是很熟悉,是否可以在轮子内分发罐子并使该罐子自动可供pyspark使用?

我想将一个罐子放在轮子或鸡蛋内(甚至不确定我是否可以这样做???)并在安装所述轮子/鸡蛋后,将罐子放在 jvm 可以使用的地方。

我想我真正要问的是,如何让某人轻松安装 3rd 方 jar 并从 pyspark 使用它?

标签: pyspark

解决方案


正如你上面提到的,希望你已经使用了 --jars 选项并且能够在 pyspark 中使用函数。正确理解您的要求,您希望将此 jar 添加到安装包中,以便 jar 库在集群的每个节点上都可用。

在 databricks 上找到了一个关于添加第三方 jar 文件 pyspark python wheel install 的来源。看看这是否只是您正在查看的信息。

https://docs.databricks.com/libraries.html#upload-a-jar-python-egg-or-python-wheel


推荐阅读