首页 > 解决方案 > 机器学习中的加权特征

问题描述

我是机器学习的初学者。因此,任何帮助或建议都会有很大帮助。

我已经读过,将权重放在特征上并进行预测是一个非常糟糕的主意。但是,如果很少有特征需要加权怎么办。

在分类问题中,假设年龄是最依赖的一个常见规范,我如何为这个特征赋予权重。我正在考虑对其进行归一化,但方差为 1.5 或 2(方差为 1 的其他特征),我相信这个特征会有更大的权重。这从根本上是错误的吗?如果错误任何其他方法。

它对分类和回归问题的影响是否不同?

标签: machine-learningnormalizationrandom-forest

解决方案


如果我们专门谈论随机森林(如您标记的那样),那么您可以使用加权子空间随机森林算法(在 Rwsrf包中)。该算法确定每个变量的权重,然后在模型构建期间使用这些权重。

变量相对于类别的信息量由信息增益比来衡量。该度量用作在树构建过程中拆分特定节点时选择该变量以包含在变量子空间中的概率。因此,在变量选择过程中,度量值较高的变量更有可能被选为候选者,并且可以构建更强的树。


推荐阅读