首页 > 解决方案 > Python中每列值的随机森林特征重要性

问题描述

我目前有一个包含大量社区(样本)的数据集。还有一列称为“市政”,其中包含社区所属的自治市的名称。我做了一个随机森林回归器来根据许多特征预测荷兰的能源消耗(当然“市政”列没有用作特征,也不是一个类)。

Sklearn 有一个特征重要性函数,但这是针对整个训练数据集的。我想知道是否可以查看每个城市的哪些特征对训练模型最重要。我想看看是否可以找到各个城市的特征重要性之间的任何空间差异。

首先我想,也许我可以为训练数据中的每个样本查看哪些特征最重要,然后总结来自同一城市的所有样本(社区)。但我在谷歌上找不到这样的东西。

希望有人可以提供帮助。

谢谢!

标签: pythonpandasscikit-learnregressionrandom-forest

解决方案


获得训练模型的特征重要性。您不能根据一列特征要求重要性特征,因为它会自动使用训练模型的所有特征。

一个想法是为每一类邻域训练一个模型。然后,您将获得每个类的特征重要性列表并进行比较。当然,只有在不同类的数量相对较少时才能这样做。


推荐阅读