首页 > 解决方案 > pyspark Vector Assembler 中已存在输出列薪水

问题描述

我正在使用 pyspark 3.0.1。我将开发一个以薪水为因变量和大约 79 个自变量的线性回归模型所以我编写了以下代码

from pyspark.ml.feature import VectorAssembler, StandardScaler
train,test=df.randomSplit([0.7,0.3],seed=21)
input_col=[...]
vector_assembler=VectorAssembler(inputCols=input_col,outputCol='salary')
temp_train=vector_assembler.transform(train)

位我在 temp_train 执行步骤中遇到以下错误,

IllegalArgumentException: Output column salary already exists.

但是我的 input_col 列表中没有薪水。你能建议我如何解决这个问题吗?

标签: apache-sparkpysparkapache-spark-ml

解决方案


推荐阅读