首页 > 解决方案 > OneHotEncoding 问题与测试集上看不见的数据

问题描述

我有数字和分类变量的数据。我已将数据拆分为训练和测试。我想在插补后进行一次热编码。测试集上有看不见的数据。

我知道handle_unknown='ignore'解决了这个问题。但是,我还想删除一列 ( drop='first') 以避免多重共线性。OnehotEncoding 不能同时接受这两个。

有没有办法处理看不见的数据并避免多重共线性?

注意:我使用的是 ColumnTransformer。

标签: pythonmachine-learningdata-scienceone-hot-encoding

解决方案


您最好使用数组切片并设计一个自定义转换器,以便您仍然可以在您的ColumnTransformer. 在这里,您将找到一个如何创建自定义转换器的示例。


推荐阅读