machine-learning - 知识蒸馏可以用于3个类吗?
问题描述
我有一个分类问题(仅限 3 个班级),我训练了一个师生模型。
训练后的学生模型(有知识蒸馏)的表现比自己训练的学生模型(没有老师)要少。我假设这是因为我从老师那里得到的信息(例如来自 softmax 层的 logits:0.98 0.02 0)与硬标签(例如 1 0 0)没有太大区别。如果我错了,请纠正我。
我正在考虑使用中间层进行知识蒸馏。有什么建议么?
解决方案
推荐阅读
- javascript - 异步操作如何运行?
- python - 如何将列表转换为字符串
- javascript - 尝试使用 nodemailer 在 nodejs 中设置密码恢复
- java - 如果硒中有可用的结果列表,如何检查屏幕是否需要向下滚动以查看搜索结果
- python - 如何比较两个数据框熊猫
- swift - SwiftUI TabView + NavigationView 导航栏不显示
- jquery - ISO 日期格式显示 RangeError
- text - ASCII 还是 UTF-8?
- python - 如何为 SQL 查询值使用列表?
- hiveql - 将动态数组行数据拆分为配置单元中的列名