首页 > 解决方案 > 随机森林特征重要性何时失效?

问题描述

我很好奇随机森林特征重要性的假设。

在这篇论文中,作者说

“我们表明,随机森林变量重要性测量是在许多应用中选择变量的明智方法,但在潜在预测变量的测量规模或类别数量不同的情况下并不可靠。”

我不明白“预测变量的测量范围不同”是什么意思。这是指在拟合随机森林模型之前需要标准化数据吗?

  1. 基于 RF 的特征重要性是否需要对特征进行标准化?

  2. 它是否需要拟合一个好的 RF 模型(例如:修剪),就好像我正在用 RF 进行实际预测一样?

  3. 如果我同时有分类变量和连续变量怎么办?排列方法是唯一的选择吗?

标签: machine-learningrandom-forestfeature-selection

解决方案


推荐阅读