python - 处理多个分类输入和可变大小的组作为神经网络的输入
问题描述
我正在处理由数字和分类特征组成的数据,其中每个输入都由一组可变大小的特征组成。例如:通过使用房屋中每个房间的特征来预测房屋的价格,并且每个房屋可以有不同数量的房间。特征可以是米大小、类型(例如客厅/浴室/卧室)、颜色、地板……一些分类特征具有高基数,我可能会使用很多特征。我想使用 n 个房间的特征来预测每栋房子的价格。我将如何构建我的输入/nn 模型以接收可变大小的输入组?
我曾想过使用 one-hot 编码,但最终我会得到很大的输入向量,并且我会失去每个房间的特征之间的联系。我也想过使用嵌入,但我不确定最好的方法是组合特征/样本以正确输入所有数据,而不会丢失有关哪些特征来自哪些样本等的任何信息。
解决方案
正如下面链接的文章所暗示的那样……您可以选择三种路线之一。
- 我认为序数编码不是您示例的正确用例
- 您已有效排除的一种热编码。
- 差异编码,我认为有点适合,因为有主卧室,次要卧室,客人卧室和儿童卧室。所以,试试那个角度。
快乐编码:)
推荐阅读
- python - 我无法在 jupyter notebook 中导入熊猫(anaconda 中的 Python 3)
- search - 替换两个单词之间的内容记事本++
- reactjs - 在 react js 中打开推杆时停止背景滚动
- django - 系统重启时自动重启 django 应用程序
- javascript - 如何将数据从一个页面组件传递到另一个页面组件。?
- event-handling - 如何在 Elm Browser.Event.onKeyDown 上使用防止默认值
- python - python 2.7 list:使用 Del list 方法清除列表的内容,还删除该列表的先前存档副本
- javascript - 来自本地存储的同步消息在 IE11 中丢失
- docker - Docker exec 在所有正在运行的容器上
- node.js - 创建搜索页面