machine-learning - 随机森林特征重要性何时失效?
问题描述
我很好奇随机森林特征重要性的假设。
在这篇论文中,作者说
“我们表明,随机森林变量重要性测量是在许多应用中选择变量的明智方法,但在潜在预测变量的测量规模或类别数量不同的情况下并不可靠。”
我不明白“预测变量的测量范围不同”是什么意思。这是指在拟合随机森林模型之前需要标准化数据吗?
基于 RF 的特征重要性是否需要对特征进行标准化?
它是否需要拟合一个好的 RF 模型(例如:修剪),就好像我正在用 RF 进行实际预测一样?
如果我同时有分类变量和连续变量怎么办?排列方法是唯一的选择吗?
解决方案
推荐阅读
- deep-learning - 通过斯坦福核心 NLP 使用 RNN 进行情感分析
- python - Django 数组字段外键
- c# - Can we control the [Setup] method execution before [Test] Method Execution in Selenium N unit
- c++ - Copy trivially copyable types using temporary storage areas: is it allowed?
- java - Android Studio 应用程序可以运行,但有时在其他设备上会出错
- javascript - FlatList converting single item to an array
- java - How to avoid if statements java7 or make code more readable
- xml - 有效的 XML 字符
- android-studio - 使用wikiitude在android studio上创建一个应用程序,但是它在启动时不断崩溃
- build - How to generate files using dart source_gen to a different directory