首页 > 解决方案 > 处理训练数据和预测数据中的特征数量不匹配

问题描述

我有 6 个文本特征(比如 f1、f2、..、f6)可用于我训练模型的数据。但是,当部署此模型并出现新数据点时,我必须使用此模型对其进行预测,它只有 2 个特征(f1 和 f2)。所以,存在特征不匹配的问题。我该如何解决这个问题?我有一些想法,但效率不高。

  1. 仅使用两个特征进行训练(f1 和 f2),并丢弃其他特征(f3,..,f6)。但这会导致信息丢失,并且我的测试集准确性会降低。
  2. 了解 (f3,..,f6) 与 (f1 和 f2) 之间的一些关系。因此,即使 (f3,..,f6) 不在新数据点中,也只能从 f1 和 f2 中提取信息。

标签: machine-learningdata-sciencefeature-extractionfeature-selection

解决方案


最好的方法当然是使用 f1、f2 和您可能拥有的任何新数据来训练一个新模型。

不想那样做?如果您没有 f3...f6,您不应该神奇地期望模型按预期工作。

现在,想想那些“f3...f6”是什么?它们您掌握的新信息有关吗?如果它们是,您也许可以近似它们。我们无法告诉您该怎么做,因为我们不知道它们是什么。插值?回归?粗略的近似?

我的建议:您缺少模型的大部分预测变量。你的旧模型毫无意义。请训练一个新的


推荐阅读