python - 如果分类列在训练集中有多个值但在测试数据中只有一个值怎么办?这样的功能在模型训练中是否有用?
问题描述
我正在尝试解决一个回归问题,其中我的一个特征可以在训练集中占用两个值('1','0'),但在测试数据中只能取值'1'。直觉上,包括这个功能对我来说似乎是错误的,但我无法找到一个具体的逻辑来支持我的假设。
解决方案
好吧,这取决于您总共拥有多少功能。如果很少(比如少于五个),那么该单一特征很可能会在您的分类中发挥重要作用。在这种情况下,我会说您有“数据不匹配”问题;这意味着您的训练和测试数据来自不同的分布。解决此问题的一种简单方法是将两个集合放在一起,将整个集合打乱,然后再次拆分数据。
推荐阅读
- python - 如何根据变量(例如日期)循环访问 URL?
- python-3.x - python中的嵌套if语句
- ios - XXX 不支持 Azure 构建管道中的配置文件
- powershell - 无法在 Pester 测试中输出文件
- swift - 从日期选择器 swift 中隐藏过去的日期和时间
- java - 在主窗口上单击菜单项时,主窗口的内容窗格内的 Java 已打开窗口位于主窗口下方
- python - 循环熊猫数据框
- nginx - Nginx 反向代理替换部分位置 URL
- javascript - 使 setState() 改变整个班级的状态变量
- node.js - nodejs multer可以创建目录和上传文件