首页 > 解决方案 > 使用随机森林进行变量选择的合适方法

问题描述

我正在使用随机森林运行回归模型,并且我想选择一组仍然可以实现良好模型性能的简约预测变量。为此,我运行了一个模型选择例程,包括两个步骤:我首先运行一个完整的模型并根据重要性对变量进行排名(我将重要性衡量为准确性的降低)。其次,我从完整模型中取出最重要的预测器,然后逐渐添加所有剩余的预测器,一次一个。通过这样做,我看到哪个预测器基于方差解释的改进最好地改进了建模结果,从而建立了一个新的简约模型。我反复重复这个程序,直到不能实现超过 2% 的方差改善。我已经读到大量可变 RF 选择方法是基于 OOB 误差的减少而不是通过检查方差改进,因此我不确定我是否选择了合适的方法。有人可以发表意见吗?谢谢

标签: random-forest

解决方案


推荐阅读