dataframe - 如何对超过 50 个类别的列进行编码
问题描述
如何对超过 50 个类别的列进行编码
我们可以使用一种热编码吗?
解决方案
这是一篇很棒的博文:https ://towardsdatascience.com/benchmarking-categorical-encoders-9c322bd77ee8
基本上,有以下几种编码方式:
- 基本标签编码 - 简单地用数字替换
- 一种热编码(可以和50个类别一起使用,还可以)
- 许多使用数字编码的方法:频率、平均目标和许多其他方法