machine-learning - 测试特征分布信息泄露有什么问题?
问题描述
当我们对整个数据集进行归一化然后只分成测试集和训练集时,为什么会如此糟糕?
我得到我们的模型从标准化数据中提取整个分布信息,但我不明白它(分布知识)如何需要测试数据记忆。
有人可以更详细地解释一下吗?
解决方案
在推理时,您将不得不使用训练中的归一化项(均值和标准差)。所以你应该在测试集中做同样的事情。
关于泄漏:
假设您想预测股票的价格(我们将其表示为 A),并且您使用股票 B 的价格作为特征。特征将是从时间戳 t1 到时间戳 t2 的百分比变化。训练集包括 5 月至 9 月,测试集是 10 月。假设 10 月是一个非常不稳定的月份。如果您也将通过测试数据对特征进行归一化,它将大大改变特征。这意味着你给模型一个暗示十月是不稳定的......然后,如果模型的结果当然会更好......但是你给它一个关于未来的信息......
推荐阅读
- python - 具有最近日期的 Python 过滤器列表
- regex - 检查苹果脚本中是否包含四位数字年份
- python - 在 python 控制台中使用右移(空格)打印 pandas 数据帧
- html - 多个幻灯片的奇怪结果
- perl - Perl Dancer2 默认路由失败
- python - Python SQL Select 从字符串列中删除前导 0
- apache-spark - pyspark:使用自定义时间序列数据的滚动平均值
- reactjs - “react-app-polyfill”在 IE11 中不起作用
- java - 设置定时器在读取 NFC 标签信息时停止
- angular - 我的组件在 Angular 中被标记为已加载两次