首页 > 解决方案 > 测试特征分布信息泄露有什么问题?

问题描述

当我们对整个数据集进行归一化然后只分成测试集和训练集时,为什么会如此糟糕?

我得到我们的模型从标准化数据中提取整个分布信息,但我不明白它(分布知识)如何需要测试数据记忆。

有人可以更详细地解释一下吗?

问题的可视化表示

标签: machine-learningdata-science

解决方案


在推理时,您将不得不使用训练中的归一化项(均值和标准差)。所以你应该在测试集中做同样的事情。

关于泄漏:

假设您想预测股票的价格(我们将其表示为 A),并且您使用股票 B 的价格作为特征。特征将是从时间戳 t1 到时间戳 t2 的百分比变化。训练集包括 5 月至 9 月,测试集是 10 月。假设 10 月是一个非常不稳定的月份。如果您也将通过测试数据对特征进行归一化,它将大大改变特征。这意味着你给模型一个暗示十月是不稳定的......然后,如果模型的结果当然会更好......但是你给它一个关于未来的信息......


推荐阅读