python - 尝试在 Jupyter 笔记本中运行 pyspark 时出现错误 java.io.IOException:无法连接到
问题描述
我正在尝试在 Jypyter 笔记本中运行 pyspark,它给了我以下异常:Py4JJavaError:调用 o190.showString 时发生错误。:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 2.0 中的任务 0 失败 1 次,最近一次失败:阶段 2.0 中丢失任务 0.0(TID 2,本地主机,执行程序驱动程序):java.io.IOException : 无法连接到 /10.209.34.114:50701
我尝试过的事情:
- 我已经验证我只运行了一个 spark 实例
- 尝试升级到最新版本的spark
- 代码没有问题;我认为问题在于如何设置 bash 配置文件。
这是我的配置(MaxOSX 上的 bash 配置文件)
export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1`
export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec"
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH
export SPARK_PATH=~/spark-2.4.3-bin-hadoop2.7
export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PACKAGES="io.delta:delta-core_2.12:0.1.0"
export PYSPARK_SUBMIT_ARGS="--packages ${PACKAGES} pyspark-shell"
export PYSPARK_PYTHON=python3
alias snotebook='$SPARK_PATH/bin/pyspark --packages com.databricks:spark-csv_2.$
这是我正在运行的示例代码:
spark = SparkSession.builder.appName("spark test").getOrCreate()
columns = ['id', 'dogs', 'cats']
vals = [
(1, 2, 0),
(2, 0, 1)
]
df = spark.createDataFrame(vals, columns)
df.show()
完整的堆栈跟踪:
解决方案
推荐阅读
- javascript - 对象数组的 Javascript 范围
- java - Gradle - 了解依赖的来源
- google-sheets - ArrayFormula 单元格部分替换数组
- laravel - 如何解决未知自定义元素问题?
- install4j - install4j 安装期间临时可执行文件的位置
- java - 被 android 中的 Calendar 类 set() 方法弄糊涂了
- reactjs - 如何使用 Jest 和 Enzyme 测试嵌套道具
- c# - 获取给定文本的字体类型
- jquery - 检查元素具有哪种形式的输入
- android - 如何在 android studio 上的谷歌地图上绘制可编辑的多边形