machine-learning - 如果我没有所有数据,如何创建特征向量?
问题描述
所以说我的每一个“东西”要分类我有:{house, flat, bungalow,electricalHeated,gasHeated,...}
这将被制成一个特征向量:{1,0,0,1,0,...},这意味着一个用电加热的房子。
对于我的训练数据,我将拥有所有这些数据——但对于我想要分类的实际事物,我可能只有它是什么样的房子,以及其他一些东西——不是所有的数据,即。{1,0,0,?,?,...}
那么我该如何表示呢?
我想找到一个新项目被加热的概率。
我将使用 SVM 线性分类器——我没有任何核心要展示,因为目前这纯粹是理论上的。任何帮助,将不胜感激 :)
解决方案
当我阅读这个问题时,您似乎对功能和标签感到困惑。
你说你要预测一个新项目是否是“gasHeated”,那么“gasHeated”应该是一个标签而不是一个特征。
顺便说一句,处理缺失值的最常见方法之一是将其设置为“零”(或一些未使用的值,例如 -1)。但通常情况下,您应该在训练数据和测试数据中都有缺失值,以使这个技巧有效。如果这种情况只发生在你的测试数据中,而没有出现在你的训练数据中,那说明你的训练数据和测试数据不是来自同一个分布,这基本上违背了机器学习的基本假设。
推荐阅读
- c - GCC 编译问题 - 致命错误:找不到 'ld'
- c - 显然 NULL 在包含的文件中是未知的
- android - Gradle 文件有问题。我已经将该项目连接到 Firebase,现在我正在尝试添加 Google 地图
- c++ - 是否可以使用不在标头中的 c++ 库代码?
- c++ - 读取文件中传递的值
- go - 在 go lang 中对 POST 请求中的 EOF 进行故障排除
- android - sqllite where 子句总是返回空
- ios - GKScore 无法更新游戏中心
- angular - 主路由器插座内的辅助路由器插座不工作
- perl - 将数据打印到 csv 文件形成一个数组