python - Python中每列值的随机森林特征重要性
问题描述
我目前有一个包含大量社区(样本)的数据集。还有一列称为“市政”,其中包含社区所属的自治市的名称。我做了一个随机森林回归器来根据许多特征预测荷兰的能源消耗(当然“市政”列没有用作特征,也不是一个类)。
Sklearn 有一个特征重要性函数,但这是针对整个训练数据集的。我想知道是否可以查看每个城市的哪些特征对训练模型最重要。我想看看是否可以找到各个城市的特征重要性之间的任何空间差异。
首先我想,也许我可以为训练数据中的每个样本查看哪些特征最重要,然后总结来自同一城市的所有样本(社区)。但我在谷歌上找不到这样的东西。
希望有人可以提供帮助。
谢谢!
解决方案
获得训练模型的特征重要性。您不能根据一列特征要求重要性特征,因为它会自动使用训练模型的所有特征。
一个想法是为每一类邻域训练一个模型。然后,您将获得每个类的特征重要性列表并进行比较。当然,只有在不同类的数量相对较少时才能这样做。
推荐阅读
- python - 为多个文件 Python 运行相同的代码
- html - Bootstrap 导航栏徽标覆盖
- swiftui - onTapGesture 和 onLongPressGesture 没有响应
- python - 在python的条形图中将名称放在条形图中
- javascript - 从Angular中的异步函数解析数据时的空白图表
- c++ - 在这种情况下,C++ 标准是否保证模板实例化点?
- javascript - Nginx 音频文件 (wav/ogg/mp3) 不工作
- c# - C#如何检查代理服务器是否工作?
- javascript - VueJS中对象的过滤值
- python - Python检查字典中的列表是否满足两个条件