python-3.x - 结合 tf-idf 与目标/均值编码进行多类分类
问题描述
我有一大群用户安装的所有软件的数据集。我必须根据用户安装的软件将用户分为 4 个类别之一(每个用户最多可以安装 30 个软件)。
“软件”是一种具有高基数(高于 1000)的功能,因此使用简单的 one-hot 编码似乎不合适。
我意识到上述问题与文本分类非常相似。在这种情况下,每个用户都由一个字符串列表表示,每个字符串表示他/她安装的软件程序。由于可以安装同一软件的多个版本,因此某些字符串会出现多次。所以这看起来很像一个短文本,其中一些词出现得更频繁。
在文本分类中,通常将原始字符串/令牌计数转换为 tf-idf 权重。这本质上是一种无监督技术,因为它没有考虑特征和目标变量之间的相关性。后者可以通过目标/平均编码来捕获。
那么有没有一种直接的方法可以将 tf-idf 与目标/平均编码结合起来?
我也会对如何规范化/标准化这种组合感兴趣。
解决方案
推荐阅读
- r - 在 R 中选择特定名称
- flutter - 如何使 DropDownButtons 的短 ListView 构建得更快?
- raspberry-pi - Electron RPi:未找到请求的设备(相机)
- java - 组合/合并列表中的对象成员
- python - 如何将 TextEdit 放在 QTableWidget - Pyqt5 中的单元格内?
- laravel - Ubuntu虚拟主机中的csrf_token错误
- sql - 为什么 TypeORM 会删除自定义表约束?
- postgresql - PostgreSQL 用于 64 位数字的按位移位运算符
- php - 基于 PHP 的混合移动应用的 Google AdMob
- git - 解决生产中子模块中的手动覆盖文件