首页 > 解决方案 > 如何处理多类文本分类中不在训练集中的测试集标签?

问题描述

我正在使用具有训练集和测试集的多类文本分类数据集。训练集中大约有 470 个唯一标签,测试集中大约有 250 个唯一标签。(这 470+ 250 个独特的标签来自一个大小为 400 万的大标签集。

大约有 30 个标签仅在测试集中,但不在训练集中。

我是否需要将每个标签编码为一个大小为 400 万而不是 450 的热向量? 这样我也可以处理那些丢失的 30 个标签

标签: kerasscikit-learndeep-learningnlp

解决方案


您的模型无法学习它没有见过的标签!理想情况下,在机器学习中,您假设训练集和测试集是从相同的基础分布中采样的。模型只能学习你教给它的东西,所以你需要确保你在相似的数据上训练和测试它!

您可以尝试将两个集合合并在一起,然后将它们重新拆分为训练和测试集,以便它们具有相同数量的类。此外,请确保您有足够的数据。您的模型无法从它看过一次或两次的课程中学习。为了让模型学习 500 个类,您应该有数十万个样本!如果不是,请尝试将您的一些课程合并在一起。


推荐阅读