python - sklearn.compose.make_column_transformer():在一个数据帧列上一步使用 SimpleImputer() 和 OneHotEncoder()
问题描述
我有一个数据框,其中包含一个包含分类变量的列,其中还包括 NaN。
Category
1 A
2 A
3 Na
4 B
我想用sklearn.compose.make_column_transformer()
干净的方式准备df。我尝试使用以下代码估算 nan 值和 OneHotEncode 列:
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer
transformer= make_column_transformer(
(SimpleImputer(missing_values=np.nan, strategy='most_frequent'), ['Category']),
(OneHotEncoder(sparse=False), ['Category'])
)
在我的训练数据上运行变压器会提高
ValueError:输入包含 NaN
transformer.fit(X_train)
X_train_trans = transformer.transform(X_train)
所需的输出将是这样的:
A B
1 1 0
2 1 0
3 1 0
4 0 1
这就提出了两个问题:
变压器是在原始数据上并行计算
SimpleImputer
和OneHotEncoder
还是按照我在变压器中引入它们的顺序计算?如何更改我的代码以便
OneHotEncoder
将推算值作为输入?我知道我可以用 pandas 在变压器之外通过两个不同的步骤解决它,但我希望代码采用干净的管道格式
解决方案
您应该使用sklearn Pipeline顺序应用转换列表:
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
s = pd.DataFrame(data={'Category': ['A', 'A', np.nan, 'B']})
category_pipeline = Pipeline(steps=[
('imputer', SimpleImputer(missing_values=np.nan, strategy='most_frequent')),
('ohe', OneHotEncoder(sparse=False))
]
)
transformer = ColumnTransformer(transformers=[
('category', category_pipeline , ['Category'])
],
)
transformer.fit_transform(s)
array([[1., 0.],
[1., 0.],
[1., 0.],
[0., 1.]])
推荐阅读
- android - 如何更有效地使用 RunApp 功能来更改页面
- c# - “如何修复 PlayerPrefs 不保存或加载保存的数据”
- performance - 离散 GPU 可减少内存争用并提高 CPU 性能
- javascript - 在全局范围内用“let”创建的变量与在循环内用“var”创建的变量
- javascript - 数组中的javascript数组到postgres括号
- javascript - addEventListener 自动触发并继续
- javascript - 为什么在对象字面量定义中使用数组/大括号来允许在 Javascript/ES2015 中动态计算键?
- php - 如何将变量放入curl中的数组
- python - VSCode pylint 无法对插入的模块进行 lint
- mongodb - 如何在 MogoDB 3.6 的 docker 映像中启用更改流?