首页 > 解决方案 > 如何对数百个类和每个类中样本量较少的文本数据进行分类

问题描述

我有一个包含大约 10000 个小段落的数据集,这些段落属于类。大约有80-100个班级。段落可以按层次组织。我想建立一个分类器模型来预测看不见的段落的类别。

目前我所做的是,我使用 FastText 实现了两步分类。首先,我将看不见的文本分类到顶级类,然后使用另一个分类器将其分类到已识别的顶级类的子类。这帮助我提高了准确性。

有一个更好的方法吗?有没有像https://github.com/globality-corp/sklearn-hierarchical-classification这样的好分层分类器用于文本分类?或者这可以通过某种方式使用 FastText 本身来改进吗?

标签: machine-learningnlpdata-sciencetext-classification

解决方案


推荐阅读