machine-learning - 用更少的训练数据获得更好的测试结果——为什么?
问题描述
我目前正在处理一个奇怪的数据集。我把它分成了 50% 的训练集和 50% 的测试集。当我省略大约 30% 的训练集时,我得到了更好的测试(不是训练!)准确度结果,我觉得这非常不直观。我尝试了不同的训练和测试拆分,我总能找到一组大约 30% 的训练集,这会降低测试的准确性。
这告诉我关于数据的什么信息?标签有时会出错吗?我是否在测试集中的数据太少以至于它有偏差?或者…?
解决方案
推荐阅读
- javascript - 如何使本地网络上的 WebRTC 视频流正常工作?
- vim - Vim foldexpr匹配pattern1 OR pattern2?
- graphics - 如何在世界空间中进行遮挡剔除
- r - 在 r (frm) 中使用分数响应模型中的因子
- rust - 我可以在 Rust 中将不可变借用标记为独占吗?
- javascript - 如何使用javascript获取两个输入(类型时间)值(上午/下午)
- docker - 使用 k8s 运行 java 应用程序并使用其独特的 pod 属性进行自动缩放
- php - 检测到 Eval 漏洞利用,能够使用 grep 找到文件但无法删除它们
- java - Firebase Fire 存储数据库将所有数据替换为单个数据
- d3.js - d3 一般更新模式