首页 > 解决方案 > 如果我没有所有数据,如何创建特征向量?

问题描述

所以说我的每一个“东西”要分类我有:{house, flat, bungalow,electricalHeated,gasHeated,...}

这将被制成一个特征向量:{1,0,0,1,0,...},这意味着一个用电加热的房子。

对于我的训练数据,我将拥有所有这些数据——但对于我想要分类的实际事物,我可能只有它是什么样的房子,以及其他一些东西——不是所有的数据,即。{1,0,0,?,?,...}

那么我该如何表示呢?

我想找到一个新项目被加热的概率。

我将使用 SVM 线性分类器——我没有任何核心要展示,因为目前这纯粹是理论上的。任何帮助,将不胜感激 :)

标签: machine-learningsvm

解决方案


当我阅读这个问题时,您似乎对功能和标签感到困惑。

你说你要预测一个新项目是否是“gasHeated”,那么“gasHeated”应该是一个标签而不是一个特征。

顺便说一句,处理缺失值的最常见方法之一是将其设置为“零”(或一些未使用的值,例如 -1)。但通常情况下,您应该在训练数据和测试数据中都有缺失值,以使这个技巧有效。如果这种情况只发生在你的测试数据中,而没有出现在你的训练数据中,那说明你的训练数据和测试数据不是来自同一个分布,这基本上违背了机器学习的基本假设。


推荐阅读