首页 > 解决方案 > 使用参数分层后类不平衡和性能下降

问题描述

我有一个包含 50 个不同类别的手写图像数据集,但它非常不平衡,实际上最后 8-9 个类别的图像数量约为前 10 个类别的 1/4。

我使用卷积自动编码器来生成然后评估这些图像,从大约 8% 的训练集(我使用 train_test_split 和稀疏性)的测试集开始,其中第一类有大约 30 个元素,而最后一个 8- 9 个类只有 9 个元素,准确率约为 70%(考虑到图像的质量,这似乎很好)。

我在没有稀疏的情况下再次尝试,此时第一类的特征是更多图像(大约 36 个),而最后一类从最少 5 个到最多 8 个,我得到了大约 92% 的准确度!

就个人而言,这似乎很奇怪(我不相信这种准确性太高)而且就个人而言,考虑到稀疏性刚刚平衡了一些类,我不明白这种下降怎么可能。

标签: tensorflowdatasetautoencoderimbalanced-data

解决方案


推荐阅读