首页 > 解决方案 > 分类器的数据集必须完美平衡吗?

问题描述

在机器学习中,通常认为二进制分类器的数据集必须是平衡的:EG。1 级 50%,0 级 50%。我的问题是:数据集是否完美平衡(50/50)?我有一个包含 1568 个观察值的数据集:第 1 类是 47%,第 0 类是 53%。这会产生问题吗?

标签: machine-learningclassification

解决方案


理想情况下,每个类都有 50% 的类,在训练模型时会得到很好的结果,因为模型正在寻求优化准确性。

例如,假设你有 99% 的类 0 和 1% 的类 1。在训练时,你会得到一个总是分类为 0 的模型,这样做,模型将获得 99% 的一般准确率,但这就是你想要的吗?平衡这些数据将帮助您避免这种类型的“愚蠢”模型。这是一个极端情况,但这就是使用平衡类的原因。

平衡时注意与少数类的过度拟合,因此模型将学习对同一个样本进行多次分类。

最后,如果您使用像您说的(47%、53%)这样的平衡数据,则不需要平衡。也许你可以开始平衡大约 35% / 65% 或类似的东西。显然,具有平衡的数据的行为取决于数据集。


推荐阅读