apache-spark - pyspark Vector Assembler 中已存在输出列薪水
问题描述
我正在使用 pyspark 3.0.1。我将开发一个以薪水为因变量和大约 79 个自变量的线性回归模型所以我编写了以下代码
from pyspark.ml.feature import VectorAssembler, StandardScaler
train,test=df.randomSplit([0.7,0.3],seed=21)
input_col=[...]
vector_assembler=VectorAssembler(inputCols=input_col,outputCol='salary')
temp_train=vector_assembler.transform(train)
位我在 temp_train 执行步骤中遇到以下错误,
IllegalArgumentException: Output column salary already exists.
但是我的 input_col 列表中没有薪水。你能建议我如何解决这个问题吗?
解决方案
推荐阅读
- model - 获取 Chromecast 设备型号名称以进行分析跟踪
- mysql - 按字符串排序 - MySQL
- parallel-processing - 在 Dask 中测量任务调度程序图的并行性
- charles-proxy - Charles Proxy - 使用重写规则时响应挂起
- spring-boot - JUnit5 中的 when(...).thenReturn(...) 哪个是 Mockito 的正确位置?测试本身或@BeforeClass/@BeforeEach 块?
- python - 与 Ray 共享内存
- javascript - 如何用 TypeScript 形成灵活的可扩展过滤器?
- reactjs - 尝试在“注销”按钮上从本地存储中删除令牌
- wordpress - 在 Wordpress Woocommerce 中显示上个月添加的产品的最简单方法是什么?
- python - 如何使用列表中的循环(列表包括字符串和变量)Python 3 在同一行输出结果?