首页 > 解决方案 > 知识蒸馏可以用于3个类吗?

问题描述

我有一个分类问题(仅限 3 个班级),我训练了一个师生模型。

训练后的学生模型(有知识蒸馏)的表现比自己训练的学生模型(没有老师)要少。我假设这是因为我从老师那里得到的信息(例如来自 softmax 层的 logits:0.98 0.02 0)与硬标签(例如 1 0 0)没有太大区别。如果我错了,请纠正我。

我正在考虑使用中间层进行知识蒸馏。有什么建议么?

标签: machine-learningdeep-learningneural-networkcomputer-vision

解决方案


推荐阅读