首页 > 解决方案 > xgboost 分类变量的特征重要性

问题描述

我正在使用 XGBClassifier 在 python 中进行训练,并且我的训练数据集中有一些分类变量。最初,我计划在输入数据之前将它们中的每一个转换为几个虚拟对象,但随后将为每个虚拟对象计算特征重要性,而不是原始分类的。由于我还需要按重要性对所有原始变量(包括数字+分类)进行排序,我想知道如何获得原始变量的重要性?是简单的加起来吗?

标签: pythonxgboostcategorical-data

解决方案


您可能可以通过将各个类别的重要性汇总到其原始父类别中来解决问题。但是,除非这些功能是高基数,否则我的两分钱就是单独报告它们。我倾向于更明确地报告模型性能/重要性度量。


推荐阅读