machine-learning - 分类器的数据集必须完美平衡吗?
问题描述
在机器学习中,通常认为二进制分类器的数据集必须是平衡的:EG。1 级 50%,0 级 50%。我的问题是:数据集是否完美平衡(50/50)?我有一个包含 1568 个观察值的数据集:第 1 类是 47%,第 0 类是 53%。这会产生问题吗?
解决方案
理想情况下,每个类都有 50% 的类,在训练模型时会得到很好的结果,因为模型正在寻求优化准确性。
例如,假设你有 99% 的类 0 和 1% 的类 1。在训练时,你会得到一个总是分类为 0 的模型,这样做,模型将获得 99% 的一般准确率,但这就是你想要的吗?平衡这些数据将帮助您避免这种类型的“愚蠢”模型。这是一个极端情况,但这就是使用平衡类的原因。
平衡时注意与少数类的过度拟合,因此模型将学习对同一个样本进行多次分类。
最后,如果您使用像您说的(47%、53%)这样的平衡数据,则不需要平衡。也许你可以开始平衡大约 35% / 65% 或类似的东西。显然,具有平衡的数据的行为取决于数据集。
推荐阅读
- android-studio - 如何在 Ubuntu 上使用电容器在 android-studio 上运行 Ionic 应用程序?
- php - 函数 preg_quote 工作不正确?
- sql - 如何在临时表中包含 NULL 值的计数而不将 NULL 数据更改为 0?
- reactjs - 如何使用用户选择实现添加方法?
- c# - 有没有办法将位图列表保存到 word 或 excel 文件中
- python - 新列和列值被添加到下一行
- c++ - 如何仅针对一项功能禁用 Cuda 主机设备警告?
- sql-server - SQL Server:按年份过滤
- python - ValueError: `shapes` 必须是一个(可能是嵌套的)形状列表
- android - android有直接支付方式吗?