首页 > 解决方案 > sklearn.compose.make_column_transformer():在一个数据帧列上一步使用 SimpleImputer() 和 OneHotEncoder()

问题描述

我有一个数据框,其中包含一个包含分类变量的列,其中还包括 NaN。

  Category
1 A
2 A
3 Na
4 B

我想用sklearn.compose.make_column_transformer()干净的方式准备df。我尝试使用以下代码估算 nan 值和 OneHotEncode 列:

from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer

transformer= make_column_transformer(
    (SimpleImputer(missing_values=np.nan, strategy='most_frequent'), ['Category']),
    (OneHotEncoder(sparse=False), ['Category'])
)

在我的训练数据上运行变压器会提高

ValueError:输入包含 NaN

transformer.fit(X_train)
X_train_trans = transformer.transform(X_train)

所需的输出将是这样的:

  A B
1 1 0
2 1 0
3 1 0
4 0 1

这就提出了两个问题:

  1. 变压器是在原始数据上并行计算SimpleImputerOneHotEncoder还是按照我在变压器中引入它们的顺序计算?

  2. 如何更改我的代码以便OneHotEncoder将推算值作为输入?我知道我可以用 pandas 在变压器之外通过两个不同的步骤解决它,但我希望代码采用干净的管道格式

标签: pythonscikit-learnpipelineone-hot-encodingimputation

解决方案


您应该使用sklearn Pipeline顺序应用转换列表:

from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

s = pd.DataFrame(data={'Category': ['A', 'A', np.nan, 'B']})

category_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(missing_values=np.nan, strategy='most_frequent')),
    ('ohe', OneHotEncoder(sparse=False))
    ]
)

transformer = ColumnTransformer(transformers=[
    ('category', category_pipeline , ['Category'])
    ],
)

transformer.fit_transform(s)
array([[1., 0.],
       [1., 0.],
       [1., 0.],
       [0., 1.]])

推荐阅读