首页 > 解决方案 > 尝试在 Jupyter 笔记本中运行 pyspark 时出现错误 java.io.IOException:无法连接到

问题描述

我正在尝试在 Jypyter 笔记本中运行 pyspark,它给了我以下异常:Py4JJavaError:调用 o190.showString 时发生错误。:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 2.0 中的任务 0 失败 1 次,最近一次失败:阶段 2.0 中丢失任务 0.0(TID 2,本地主机,执行程序驱动程序):java.io.IOException : 无法连接到 /10.209.34.114:50701

我尝试过的事情:

这是我的配置(MaxOSX 上的 bash 配置文件)

export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1`
export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec"
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH

export SPARK_PATH=~/spark-2.4.3-bin-hadoop2.7
export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PACKAGES="io.delta:delta-core_2.12:0.1.0"
export PYSPARK_SUBMIT_ARGS="--packages ${PACKAGES} pyspark-shell"
export PYSPARK_PYTHON=python3
alias snotebook='$SPARK_PATH/bin/pyspark --packages com.databricks:spark-csv_2.$

这是我正在运行的示例代码:

spark = SparkSession.builder.appName("spark test").getOrCreate()
columns = ['id', 'dogs', 'cats']
vals = [
     (1, 2, 0),
     (2, 0, 1)
]
df = spark.createDataFrame(vals, columns)
df.show()

完整的堆栈跟踪:

https://pastebin.com/i43vMLms

标签: pythonpysparkjupyter-notebook

解决方案


推荐阅读