首页 > 解决方案 > 如果分类列在训练集中有多个值但在测试数据中只有一个值怎么办?这样的功能在模型训练中是否有用?

问题描述

我正在尝试解决一个回归问题,其中我的一个特征可以在训练集中占用两个值('1','0'),但在测试数据中只能取值'1'。直觉上,包括这个功能对我来说似乎是错误的,但我无法找到一个具体的逻辑来支持我的假设。

标签: pythonmachine-learningregressiondata-sciencefeature-selection

解决方案


好吧,这取决于您总共拥有多少功能。如果很少(比如少于五个),那么该单一特征很可能会在您的分类中发挥重要作用。在这种情况下,我会说您有“数据不匹配”问题;这意味着您的训练和测试数据来自不同的分布。解决此问题的一种简单方法是将两个集合放在一起,将整个集合打乱,然后再次拆分数据。


推荐阅读