首页 > 解决方案 > 二进制分类的准确率低于 50%

问题描述

我正在一个平衡的数据集上训练一个朴素贝叶斯分类器,其中正例和负例的数量相等。在测试时,我依次计算正类、负类和构成负类的子集的示例的准确性。但是,对于负类的某些子集,我得到的准确度值低于 50%,即随机猜测。我想知道,我是否应该担心这些结果远低于 50%?谢谢!

标签: machine-learningbinaryfloating-accuracytext-classification

解决方案


没有具体细节就不可能完全回答这个问题,所以这里是指导方针:

如果你有一个包含相同数量类的数据集,那么随机猜测平均会给你 50% 的准确率。

需要明确的是,您确定您的模型在您的训练数据集上学到了一些东西吗?训练数据集准确率是否高于 50%?如果是,请继续阅读。

假设您的验证集足够大以排除统计波动,那么低于 50% 的准确度表明您的模型确实有问题。

例如,您的类是否在验证数据集中以某种方式意外切换?因为请注意,如果您改为使用 1 - model.predict(x),您的准确率将超过 50%。


推荐阅读