machine-learning - 用更少的训练数据获得更好的测试结果——为什么？

首页 > 解决方案 > 用更少的训练数据获得更好的测试结果——为什么？

问题描述

我目前正在处理一个奇怪的数据集。我把它分成了 50% 的训练集和 50% 的测试集。当我省略大约 30% 的训练集时，我得到了更好的测试（不是训练！）准确度结果，我觉得这非常不直观。我尝试了不同的训练和测试拆分，我总能找到一组大约 30% 的训练集，这会降低测试的准确性。

这告诉我关于数据的什么信息？标签有时会出错吗？我是否在测试集中的数据太少以至于它有偏差？或者…？

标签： machine-learningstatisticsclassification

解决方案

推荐阅读