tensorflow - 使用参数分层后类不平衡和性能下降

我有一个包含 50 个不同类别的手写图像数据集，但它非常不平衡，实际上最后 8-9 个类别的图像数量约为前 10 个类别的 1/4。

我使用卷积自动编码器来生成然后评估这些图像，从大约 8% 的训练集（我使用 train_test_split 和稀疏性）的测试集开始，其中第一类有大约 30 个元素，而最后一个 8- 9 个类只有 9 个元素，准确率约为 70%（考虑到图像的质量，这似乎很好）。

我在没有稀疏的情况下再次尝试，此时第一类的特征是更多图像（大约 36 个），而最后一类从最少 5 个到最多 8 个，我得到了大约 92% 的准确度！

就个人而言，这似乎很奇怪（我不相信这种准确性太高）而且就个人而言，考虑到稀疏性刚刚平衡了一些类，我不明白这种下降怎么可能。

标签： tensorflowdatasetautoencoderimbalanced-data