tensorflow - 使用参数分层后类不平衡和性能下降
问题描述
我有一个包含 50 个不同类别的手写图像数据集,但它非常不平衡,实际上最后 8-9 个类别的图像数量约为前 10 个类别的 1/4。
我使用卷积自动编码器来生成然后评估这些图像,从大约 8% 的训练集(我使用 train_test_split 和稀疏性)的测试集开始,其中第一类有大约 30 个元素,而最后一个 8- 9 个类只有 9 个元素,准确率约为 70%(考虑到图像的质量,这似乎很好)。
我在没有稀疏的情况下再次尝试,此时第一类的特征是更多图像(大约 36 个),而最后一类从最少 5 个到最多 8 个,我得到了大约 92% 的准确度!
就个人而言,这似乎很奇怪(我不相信这种准确性太高)而且就个人而言,考虑到稀疏性刚刚平衡了一些类,我不明白这种下降怎么可能。
解决方案
推荐阅读
- reactjs - 如何优化 react-project 的构建?因为 react 项目中有两个 node 模块,与 git 子模块一起使用
- asp.net - 当我将 dll 文件粘贴到发布文件夹、ASP.NET MVC / Entity Framework 的 bin 中时,迁移不会自动运行,不会生成新表/列
- react-native - 我如何跳过动画只替换为反应导航
- python - groupby pandas的多重条件问题
- prolog - 如何从查询输入更改根?(编程逻辑)
- javascript - 如何根据嵌套值从 json 文件中提取对象(使用 JavaScript)
- python - 在聊天机器人上实现 symspell 拼写校正器
- linux - Jenkins 执行 Shell 失败
- javascript - 每秒从 api 获取数据
- angular - Angular 材质进度条加载器