首页 > 解决方案 > 使用 toDF() 的 rdd 到 df 转换给出错误

问题描述

My code is:
```
sample1 = df_pat_jour_status_other_occurances.rdd.map(lambda x: (x.lh_pat_id, x.src_key, x.Journey_Status)).toDF()
type(sample1)
```
```

Py4JJavaError:调用 z:org.apache.spark.api.python.PythonRDD.runJob 时出错。:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 1010.0 中的任务 0 失败 1 次,最近一次失败:阶段 1010.0 中丢失任务 0.0(TID 32154,LTIN214271.cts.com,执行程序驱动程序):org .apache.spark.SparkException:Python 工作者无法重新连接。```

标签: pysparkrdd

解决方案


原因:

从属和驱动程序在您的情况下使用不同的版本。

使固定:

  1. 在从站中安装 Python 3.8 版本。

  2. 修改spark/conf/spark-env.sh文件,添加PYSPARK_PYTHON=/usr/local/lib/python3.8


推荐阅读