python - 如何使文本分类给出无类别
问题描述
我正在为方言做文本分类。在我训练了 3 种方言之后,我用我拥有的测试数据对其进行了测试。但是,现在假设我要从 twitter 中提取一条推文,并要求分类器输出相应的方言,但如果这条推文不是用这 3 种方言中的任何一种写的呢?我假设他无论如何都会给出一个类别,但这将是误报。因此,我希望他给出一个无类别。怎么做?我是否还应该提供带有无标签的训练数据?
解决方案
如果要预测具有相同分类器的新类别(在本例中为 None),则必须提供与该类别对应的训练数据。
另一个想法(在这里更好地讨论:https ://stats.stackexchange.com/questions/174856/semi-supervised-classification-with-unseen-classes )是训练一个多类分类器,它将一个句子分配给一个方言; 然后训练各种一类分类器,每种方言一个,可以确认或否定多类分类器的预测。
一个例子:
方言A,B,C。
多类分类器将句子分配给方言A。方言A
的一类分类器将句子分类为方言A。
句子属于方言A。
多类分类器将句子分配给方言A。
一个- 方言 A 的类分类器将句子分类为非方言 A。
句子属于未知方言(无)。
推荐阅读
- c# - 用于检查多个纬度和经度值的正则表达式模式
- networking - 访问 google.com 时出现 ERR_CERT_COMMON_NAME_INVALID
- python - 无法使用超级用户帐户登录到管理站点,该帐户是使用控制台创建的 // Django
- string - 如何使用 PowerShell 脚本从 html 代码中提取多个字符串
- c# - 如何获取WPF中列的所有值?
- javascript - 正则表达式匹配纯字符串,只有字母以及可选的点字符作为匹配的开头
- rxjs - 主题发出后如何发出延迟值?
- u-boot - u-boot:缓存:范围内未对齐的操作
- xamarin.android - Autodesk Forge Viewer 在 android 中加载时间延迟,使用 Xamarin 时性能变慢,Forge Offline Viewer
- javascript - 让 div 在滚动时消失