apache-spark - 无法在 jupyter notebook 中导入 sparkdl
问题描述
我正在尝试在 jupyter notebook中使用 spark 深度学习库( https://github.com/databricks/spark-deep-learning )。
当我尝试在 jupyter notebook 中“导入 sparkdl”时,我收到错误“找不到模块”。
当我在 cli 中运行以下命令时
pyspark --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11
我能够在 spark shell 中导入 sparkdl 及其工作。
如何在 jupyter notebook 中使用这个库?
解决方案
这是我在 PySpark 2.4 中使用的代码片段。您需要连接到网络才能安装该软件包。
# Import libraries
from pyspark.sql import SparkSession
# Creating SparkSession
spark = (SparkSession
.builder
.config('spark.jars.packages', 'databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11')
.getOrCreate()
)
# Import Spar-Deep-Learning-Pipelines
import sparkdl