machine-learning - 为更大的数据集增加 MAE/MSE 值
问题描述
首先,如果这不是问这个问题的最佳地方,我想道歉。我有一个回归模型,可以根据 11 个输入预测葡萄酒的质量。目前我的模型有平均平均绝对误差和均方误差结果。但是,我使用两个具有完全相同输入和参数的数据集。一个数据集有 1600 个条目,另一个有 5000 个条目。我的问题是我的 MAE 和 MSE 值对于较大的数据集更差。我的模型不应该随着训练集大小的增加而获得更好的性能吗?
解决方案
我的模型不应该随着训练集大小的增加而获得更好的性能吗?
简短的回答:没有
更长的答案:
一般来说,假设拥有更多数据会给你带来更好的准确性是正确的思考方式。但是更多的数据并不意味着你的模型会变得更容易。它可能会变得更复杂。例如,您正在使用线性回归,但在某个时间点您意识到随着更多数据的回归似乎是指数曲线。
您还需要检查新(更多)数据是否遵循您的原始分布。我的方法是你用更多的数据重新训练你的模型,然后考虑一个新问题。
推荐阅读
- mysql - 如何在表中自动递增?
- mysql - vb.net MySQL 和阿拉伯字符
- browser - 服务器响应头 Cache-Control 不可变 浏览器理解什么格式是正确的?
- python - 绑定 python-vlc 的问题
- python - 如何以家谱结构的形式绘制字典?
- three.js - 相对于点集合设置相机
- sqlite - SQLite3 C++ ver.3.25.3 中的外键支持
- xcode - Xcode 在“获取应用商店配置”时冻结
- scala - Scala 将 Map 值与另一个 Map 键进行比较
- android - 错误:错误:未找到与给定名称匹配的资源(用于属性参考)