python - 在 python 机器学习模型中,对最近数据的权重比对旧数据的权重更大
问题描述
在 python 中拥有一个机器学习模型,其中使用历史数据来训练模型。使用这个回归模型,应该给出一个连续变量的预测。
是否有可能比旧数据更多地考虑年轻数据?因为在动态系统中,旧数据中的模式在当前可能已经过时,因此不应该与预测的新数据具有相同的值。
解决方案
从理论上讲,您可以在回归模型中使用权重来解释旧数据中的不可靠测量。但是根据您使用的统计程序和软件包,这可能很难实现。
或者,您可以通过使用分层样本,在您的训练语料库的组成中为最近的数据提供更高的概率。如果您从 50% 的近期案例、30% 的近期案例和仅 20% 的旧案例组成您的训练语料库,您会自动赋予近期案例更高的权重。这可能是使您的模型与最近的案例保持一致的更可行和直接的方法。
无论如何,我建议比较最近和旧案例的训练数据,以确定最近的数据导致变化的地方。也就是说,在最近的案例中,哪些特征是相关的,而之前没有,哪些特征已经失去了相关性。这可能会告诉您有关机器学习模型的更多信息,并允许您更好地对其进行自定义。
话虽如此,这个问题更适合 CrossValidated 或 DataScience,而不是 StackOverflow,因为它不涉及代码。
推荐阅读
- javascript - 事件委托不适用于动态按钮
- python - 查看值是否与 ManyToManyField 相关
- ios - 为什么我的页面内容从屏幕开始然后向下调整?
- python - python中pyqtsignal和emit的使用
- mysql - 即使提供正确的 mysql 服务名称,Spring-boot 也无法连接到 mysql 容器
- javascript - sinon.js:存根调用不会增加 callCount
- mongodb - asyncData 从 db 获取配置文件
- vb.net - 主题改变事件?
- ios - 使 swift 协议符合 Hashable
- python - 使用 python 使用 subprocess 模块设置环境