首页 > 解决方案 > 机器学习,其中训练数据的标签可能不是 100% 准确

问题描述

我有一个数据集,其中包含患有糖尿病和没有糖尿病的人。使用这些数据,我想训练一个模型来计算未知糖尿病状态的人的风险概率。我知道在培训中没有被诊断出患有糖尿病的大多数人没有糖尿病,但很可能其中一些人可能患有未确诊的糖尿病。

这似乎提出了第 22 条问题的情况。我想识别有风险或可能患有未确诊糖尿病的人,但是我知道我的训练数据集中的一些人被错误地标记为没有糖尿病,因为他们尚未被诊断出来。有没有人遇到过这样的问题?如果仅占数据的一小部分,是否仍然可以基于可能存在一些错误标记的数据而继续进行?

标签: machine-learningtraining-data

解决方案


可能有几种方法可以解决您的问题。

首先 - 毕竟这可能不是问题。如果错误标记的数据只占您训练集的一小部分,则可能无关紧要。实际上,在某些情况下,添加错误标记的数据或只是随机噪声会提高分类器的鲁棒性和泛化能力。

其次 - 您可能希望使用训练集来训练分类器,然后检查分类器给出错误分类的数据点。分类器可能实际上是正确的,并将您引导到错误标记的数据。如果可能的话,可以随后手动检查此数据。

第三 - 您可以使用共识过滤器等方法预先过滤数据。本文可能是您开始研究此主题的好方法:识别错误标记的训练数据 - CE Brody 和 MA Friedl


推荐阅读