首页 > 解决方案 > 是一种热编码没有虚拟陷阱

问题描述

在一个热编码器中有一种叫做虚拟陷阱的东西,即当我们用 3 个类别对分类列进行编码时,例如 a、b 和 c,然后使用一个热编码器我们得到 3 个类别,例如 a、b 和 c 列,但是当我们使用 get_dummies 我们得到 2 列而不是 a,然后 b 从虚拟陷阱中保存。是一种暴露于虚拟陷阱的热编码,或者它会处理它。我对吗?哪一个是虚拟陷阱的保存?还是可以将两者与我们的删除列一起使用,我将数据集用于许多算法。

寻求帮助。提前致谢。

标签: machine-learningdeep-learningbigdatadata-science

解决方案


OneHotEncoder不能直接处理字符串值。如果您的标称特征是字符串,那么您需要首先将它们映射为整数。

pandas.get_dummies有点相反。默认情况下,它只将字符串列转换为 one-hot 表示,除非指定了列。


推荐阅读