machine-learning - 使用当前无效的输入数据进行预测
问题描述
假设我们有一些数据(输入),我们想用它来预测一些输出。如果特定输入可以采用的可能值随着时间的推移发生了变化,那么使用所有数据是否仍然合适?
让我试着用一个例子来澄清一下。假设其中一个输入是[A, B, C]
在数据中具有唯一值的分类变量,但我们知道一个事实是,在我们最终将进行预测的当前设置中,只有值[A, B]
是可能的。
C
使用所有数据是否仍然合适,或者是否应该排除所有包含 a 的观察结果?
解决方案
IfC
不是唯一映射到目标变量,而是与A
or/and共享一些目标变量B
。在这种情况下,留C
在数据集中,知道它肯定不会出现在未来的输入中(即您预测看不见的输入的地方),将调整模型的假设(这取决于模型,线性模型更多容易出现这种情况),因此最终假设将基于冗余信息。
简单来说:In-Sample不代表Out-of-Sample,所以它会过拟合,不会泛化!
推荐阅读
- python - tensorflow-gpu 安装在 ubuntu 18 上失败“InvalidArchiveError('存档错误 /anaconda/pkgs/cudatoolkit-10.1.243-h6bb024c_0.tar.bz2。”
- istio - Istio:当我启用 JWT RequestAuthentication 时,健康检查/sidecar 失败
- pca - 使用 PCA 时的大量主成分
- cmake - 由 sub_directory 二进制文件自动生成的 globbing 文件
- pdf - 我们可以使用 Ghostscript 将包含嵌入式字体的 PDF 转换为非嵌入式(标准字体)PDF 文档吗?
- postgresql - 在 postgreSQL 中将用户添加到数据库时出现问题
- javascript - 使用“排序”方法后如何计算元素的前一个索引?
- vb.net - 在 vb.net 中的项目/表单之间切换时出现问题
- scala - Spark DataFrame 将字符串格式的毫秒时间戳列转换为以毫秒为单位的人类可读时间
- swift - WatchOS 建立服务器连接