首页 > 解决方案 > 结合 tf-idf 与目标/均值编码进行多类分类

问题描述

我有一大群用户安装的所有软件的数据集。我必须根据用户安装的软件将用户分为 4 个类别之一(每个用户最多可以安装 30 个软件)。

“软件”是一种具有高基数(高于 1000)的功能,因此使用简单的 one-hot 编码似乎不合适。

我意识到上述问题与文本分类非常相似。在这种情况下,每个用户都由一个字符串列表表示,每个字符串表示他/她安装的软件程序。由于可以安装同一软件的多个版本,因此某些字符串会出现多次。所以这看起来很像一个短文本,其中一些词出现得更频繁。

在文本分类中,通常将原始字符串/令牌计数转换为 tf-idf 权重。这本质上是一种无监督技术,因为它没有考虑特征和目标变量之间的相关性。后者可以通过目标/平均编码来捕获。

那么有没有一种直接的方法可以将 tf-idf 与目标/平均编码结合起来?

我也会对如何规范化/标准化这种组合感兴趣。

标签: python-3.xtf-idfcategorical-datafeature-selectionmulticlass-classification

解决方案


推荐阅读