首页 > 解决方案 > 用更少的训练数据获得更好的测试结果——为什么?

问题描述

我目前正在处理一个奇怪的数据集。我把它分成了 50% 的训练集和 50% 的测试集。当我省略大约 30% 的训练集时,我得到了更好的测试(不是训练!)准确度结果,我觉得这非常不直观。我尝试了不同的训练和测试拆分,我总能找到一组大约 30% 的训练集,这会降低测试的准确性。

这告诉我关于数据的什么信息?标签有时会出错吗?我是否在测试集中的数据太少以至于它有偏差?或者…?

标签: machine-learningstatisticsclassification

解决方案


推荐阅读