首页 > 解决方案 > 多类分类的 AUC

问题描述

假设我们有一个包含 3 个类别的分类问题,并且我们有高度不平衡的数据。假设在第 1 类我们有 185 个数据点,在第 2 类 199 和在第 3 720 类。

为了计算多类问题的 AUC,有宏观平均(对每个标签的分类给予相等的权重)和微观平均方法(将标签指示矩阵的每个元素视为二元预测),如scikit-学习教程

对于这种不平衡的数据集,应该使用 AUC 的微观平均还是宏观平均?

我不确定,因为当我们有一个如下所示的混淆矩阵时,我得到的微观平均 AUC 为 0.76,宏观平均 AUC 为 0.55。

在此处输入图像描述

标签: machine-learningrocaucmulticlass-classification

解决方案


由于您的类具有大多数以更高精度分类的数据点,因此使用微平均计算的整体精度将高于使用宏观平均计算的相同精度。

这里,P1 = 12/185 = 0.06486486,P2 = 11/199 = 0.05527638,P3 = 670 / 720 = 0.9305556

宏观平均的整体精度 = (P1 + P2 + P3) / 3 = 0.3502323,远低于微观平均 = (12+11+670)/(185+199+720) = 0.6277174 的整体精度。

AUC 也是如此。


推荐阅读