machine-learning - 使用标记+预测数据重新训练生产模型?
问题描述
假设我目前正在用两个不同的类进行文本分类。我现在拥有的标记数据是我手动分类为 X 或 Y 的数据。数据集有点大,数据集大小为 7000(3500 X,3500 Y)。
问题是我有 2000 个目前没有标记,但它们属于 X 或 Y(没有其他类)。
我的模型的准确率、召回率和 f1 分数在 95-98 左右,具体取决于我使用的模型。
目标是不再需要手动对 X 或 Y 进行分类,只需让 ML 模型为我做这件事(ofc 它有时会出错,一切正常)。
问题是,当我以后重新训练我的模型时,我可以将模型的预测与手动分类的训练和验证数据一起使用吗?
我知道这是一个难题,因为您没有所有信息等。但我想我不是唯一一个想要用 ML 模型替换当前手动完成的东西的人。
解决方案
我认为这绝对不是一个好主意。通过这样做,您基本上只会提高模型对预测正确的“信心”。如果您添加的文档与您的训练集中的文档非常不同怎么办?我宁愿建议两件事之一(尽管您的模型似乎已经具有非常好的性能):
如果您可以手动标记更多文档,也许您可以想出一个您想要标记的基本原理。例如,您可以手动标记预测概率较低的那些(您训练的分类器对预测的准确性不是很“自信”)
如果您有很多未标记的数据,并且您希望它们的行为与您的训练数据不同,那么可能值得一试半监督学习。这将利用标记数据和未标记数据的分布。
推荐阅读
- javascript - 放大弹出窗口,选择最后显示的图像
- reactjs - 某些东西已经在端口 3000 上运行
- css - 如何垂直对齐woocommerce价格?
- java - 使用 SWIG 进行不兼容的类型转换
- javascript - 为什么 Angular AoT 不支持装饰器中的函数表达式?
- docker - 访问嵌套的 Docker
- dart - 当您一直滚动到 ListView.builder 的顶部时,如何禁用动画
- python-3.x - 使用 zeep 使用 Soap Client 从 wsdl 获取数据
- javascript - Bootstrap 选项卡中的光滑滑块
- java - 三层java泛型继承