machine-learning - 如何对数百个类和每个类中样本量较少的文本数据进行分类
问题描述
我有一个包含大约 10000 个小段落的数据集,这些段落属于类。大约有80-100个班级。段落可以按层次组织。我想建立一个分类器模型来预测看不见的段落的类别。
目前我所做的是,我使用 FastText 实现了两步分类。首先,我将看不见的文本分类到顶级类,然后使用另一个分类器将其分类到已识别的顶级类的子类。这帮助我提高了准确性。
有一个更好的方法吗?有没有像https://github.com/globality-corp/sklearn-hierarchical-classification这样的好分层分类器用于文本分类?或者这可以通过某种方式使用 FastText 本身来改进吗?
解决方案
推荐阅读
- python - 需要将消息响应构造为表并通过python发布到SNS
- shell - grep 一个数字大于 45 的字符串
- java - Android - 二进制 XML 文件第 10 行:膨胀类时出错
- botframework - 结合 LUIS 和 QNA Maker 模型,在实体列表限制中运行
- mysql - 如何拆分mysql查询条件
- java - 将 Quarkus 与裸 Vertx 一起使用:服务器仅响应一个连接
- ios - 我可以得到与 NumberFormatter.Style.spellOut 完全相反的结果吗?
- terraform - terraform 给出地图默认值的所有值?
- python - 如何从 Python 字典中一个键的多个值中获取一个值
- python - Pandas 将周末的日期移动到下周一