首页 > 解决方案 > 如何使文本分类给出无类别

问题描述

我正在为方言做文本分类。在我训练了 3 种方言之后,我用我拥有的测试数据对其进行了测试。但是,现在假设我要从 twitter 中提取一条推文,并要求分类器输出相应的方言,但如果这条推文不是用这 3 种方言中的任何一种写的呢?我假设他无论如何都会给出一个类别,但这将是误报。因此,我希望他给出一个无类别。怎么做?我是否还应该提供带有无标签的训练数据?

标签: pythonmachine-learningtext-classificationcountvectorizer

解决方案


如果要预测具有相同分类器的新类别(在本例中为 None),则必须提供与该类别对应的训练数据。

另一个想法(在这里更好地讨论:https ://stats.stackexchange.com/questions/174856/semi-supervised-classification-with-unseen-classes )是训练一个多类分类器,它将一个句子分配给一个方言; 然后训练各种一类分类器,每种方言一个,可以确认或否定多类分类器的预测。

一个例子:
方言A,B,C。

多类分类器将句子分配给方言A。方言A
的一类分类器将句子分类为方言A。
句子属于方言A。

多类分类器将句子分配给方言A。
一个- 方言 A 的类分类器将句子分类为非方言 A。
句子属于未知方言(无)。


推荐阅读