首页 > 解决方案 > 使用当前无效的输入数据进行预测

问题描述

假设我们有一些数据(输入),我们想用它来预测一些输出。如果特定输入可以采用的可能值随着时间的推移发生了变化,那么使用所有数据是否仍然合适?

让我试着用一个例子来澄清一下。假设其中一个输入是[A, B, C]在数据中具有唯一值的分类变量,但我们知道一个事实是,在我们最终将进行预测的当前设置中,只有值[A, B]是可能的。

C使用所有数据是否仍然合适,或者是否应该排除所有包含 a 的观察结果?

标签: machine-learningstatisticsartificial-intelligencepredictionforecasting

解决方案


IfC不是唯一映射到目标变量,而是与Aor/and共享一些目标变量B。在这种情况下,留C在数据集中,知道它肯定不会出现在未来的输入中(即您预测看不见的输入的地方),将调整模型的假设(这取决于模型,线性模型更多容易出现这种情况),因此最终假设将基于冗余信息。

简单来说:In-Sample不代表Out-of-Sample,所以它会过拟合,不会泛化!


推荐阅读