pyspark - 使用 toDF() 的 rdd 到 df 转换给出错误
问题描述
My code is:
```
sample1 = df_pat_jour_status_other_occurances.rdd.map(lambda x: (x.lh_pat_id, x.src_key, x.Journey_Status)).toDF()
type(sample1)
```
```
Py4JJavaError:调用 z:org.apache.spark.api.python.PythonRDD.runJob 时出错。:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 1010.0 中的任务 0 失败 1 次,最近一次失败:阶段 1010.0 中丢失任务 0.0(TID 32154,LTIN214271.cts.com,执行程序驱动程序):org .apache.spark.SparkException:Python 工作者无法重新连接。```
解决方案
原因:
从属和驱动程序在您的情况下使用不同的版本。
使固定:
在从站中安装 Python 3.8 版本。
修改spark/conf/spark-env.sh文件,添加PYSPARK_PYTHON=/usr/local/lib/python3.8
推荐阅读
- javascript - 尝试在按钮单击时播放随机图像和随机声音
- firebase - 使用云功能从 Firestore 中的复合查询中获取数据?
- javascript - 无法用 Javascipt 和/或 jQuery 替换表单输入值
- node.js - next.js + expo:您可能忘记从定义组件的文件中导出组件,或者您可能混淆了默认导入和命名导入
- r - 基于特定列生成列,但填充其他列的值
- python - Python DataFrames:附加数据帧或系列并按索引覆盖
- redirect - 为什么我的 URL 重定向在没有 www 的情况下不起作用?
- edx - edX 课程进度条颜色代码表示什么?
- javascript - 使用 javascript 回调获取密钥,如 Google map api do
- java - 在一种测试方法上使用 Mockito 使其他测试方法失败