machine-learning - 机器学习中的加权特征
问题描述
我是机器学习的初学者。因此,任何帮助或建议都会有很大帮助。
我已经读过,将权重放在特征上并进行预测是一个非常糟糕的主意。但是,如果很少有特征需要加权怎么办。
在分类问题中,假设年龄是最依赖的一个常见规范,我如何为这个特征赋予权重。我正在考虑对其进行归一化,但方差为 1.5 或 2(方差为 1 的其他特征),我相信这个特征会有更大的权重。这从根本上是错误的吗?如果错误任何其他方法。
它对分类和回归问题的影响是否不同?
解决方案
如果我们专门谈论随机森林(如您标记的那样),那么您可以使用加权子空间随机森林算法(在 Rwsrf
包中)。该算法确定每个变量的权重,然后在模型构建期间使用这些权重。
变量相对于类别的信息量由信息增益比来衡量。该度量用作在树构建过程中拆分特定节点时选择该变量以包含在变量子空间中的概率。因此,在变量选择过程中,度量值较高的变量更有可能被选为候选者,并且可以构建更强的树。
推荐阅读
- firebase - 问:Firestore 安全规则 - 存储在哪里?
- python - 如何将 INSERT INTO ... RETURNING 值分配给变量
- php - 在 PHP Laravel 中的 SQL Server 中将字符串转换为日期数据类型
- python - 满足特定条件后在for循环中返回一项
- sql - 按两列分组,其中一列是时间戳
- image - 如何在 Xamarin.Forms 中显示部分图像,在框架内
- spring-boot - Openshift:我的 springboot 应用程序需要多少个 pod?
- apache-spark - Pyspark SQL 条件连接问题
- java - ArrayList 的深拷贝
- mongodb - 使用spring data mongoDB创建新文档(保存)时将_id复制到新字段