首页 > 解决方案 > 具有多种特征的分类?

问题描述

我有:

1) 2组受试者(对照组和癌症患者)

2)一组特征,每个特征。

我想找到一个特征,或者哪些特征的哪个组合,最能区分两组。

我从评估 AUC 开始,然后使用一些 k 均值聚类,但我不知道如何组合特征进行分类。

谢谢

标签: classificationcluster-analysispredictionfeature-selectionauc

解决方案


我建议你使用一些特征重要性评估的方法。有许多不同的方法来测试特征的重要性。一开始,在我看来,最简单的是随机森林分类器。该模型在训练期间具有“内置”特征重要性评估,基于袋外错误。基于树的分类器必须在训练过程中获得特征值后评估信息的增益。

您还可以通过修改数据集来检查模型分数来测试特征重要性,即使用向后消除策略。

您还可以使用 PCA 或统计测试。最后,您还可以寻找功能之间的依赖关系,以从您的数据功能中删除没有提供足够信息的功能。


推荐阅读