首页 > 解决方案 > 使用标记+预测数据重新训练生产模型?

问题描述

假设我目前正在用两个不同的类进行文本分类。我现在拥有的标记数据是我手动分类为 X 或 Y 的数据。数据集有点大,数据集大小为 7000(3500 X,3500 Y)。

问题是我有 2000 个目前没有标记,但它们属于 X 或 Y(没有其他类)。

我的模型的准确率、召回率和 f1 分数在 95-98 左右,具体取决于我使用的模型。

目标是不再需要手动对 X 或 Y 进行分类,只需让 ML 模型为我做这件事(ofc 它有时会出错,一切正常)。

问题是,当我以后重新训练我的模型时,我可以将模型的预测与手动分类的训练和验证数据一起使用吗?

我知道这是一个难题,因为您没有所有信息等。但我想我不是唯一一个想要用 ML 模型替换当前手动完成的东西的人。

标签: machine-learningtext-classificationtraining-data

解决方案


我认为这绝对不是一个好主意。通过这样做,您基本上只会提高模型对预测正确的“信心”。如果您添加的文档与您的训练集中的文档非常不同怎么办?我宁愿建议两件事之一(尽管您的模型似乎已经具有非常好的性能):

  1. 如果您可以手动标记更多文档,也许您可​​以想出一个您想要标记的基本原理。例如,您可以手动标记预测概率较低的那些(您训练的分类器对预测的准确性不是很“自信”)

  2. 如果您有很多未标记的数据,并且您希望它们的行为与您的训练数据不同,那么可能值得一试半监督学习。这将利用标记数据和未标记数据的分布。


推荐阅读