首页 > 解决方案 > 在 python 机器学习模型中,对最近数据的权重比对旧数据的权重更大

问题描述

在 python 中拥有一个机器学习模型,其中使用历史数据来训练模型。使用这个回归模型,应该给出一个连续变量的预测。

是否有可能比旧数据更多地考虑年轻数据?因为在动态系统中,旧数据中的模式在当前可能已经过时,因此不应该与预测的新数据具有相同的值。

标签: pythonmachine-learning

解决方案


从理论上讲,您可以在回归模型中使用权重来解释旧数据中的不可靠测量。但是根据您使用的统计程序和软件包,这可能很难实现。

或者,您可以通过使用分层样本,在您的训练语料库的组成中为最近的数据提供更高的概率。如果您从 50% 的近期案例、30% 的近期案例和仅 20% 的旧案例组成您的训练语料库,您会自动赋予近期案例更高的权重。这可能是使您的模型与最近的案例保持一致的更可行和直接的方法。

无论如何,我建议比较最近和旧案例的训练数据,以确定最近的数据导致变化的地方。也就是说,在最近的案例中,哪些特征是相关的,而之前没有,哪些特征已经失去了相关性。这可能会告诉您有关机器学习模型的更多信息,并允许您更好地对其进行自定义。

话虽如此,这个问题更适合 CrossValidated 或 DataScience,而不是 StackOverflow,因为它不涉及代码。


推荐阅读