首页 > 解决方案 > 处理多个分类输入和可变大小的组作为神经网络的输入

问题描述

我正在处理由数字和分类特征组成的数据,其中每个输入都由一组可变大小的特征组成。例如:通过使用房屋中每个房间的特征来预测房屋的价格,并且每个房屋可以有不同数量的房间。特征可以是米大小、类型(例如客厅/浴室/卧室)、颜色、地板……一些分类特征具有高基数,我可能会使用很多特征。我想使用 n 个房间的特征来预测每栋房子的价格。我将如何构建我的输入/nn 模型以接收可变大小的输入组?

我曾想过使用 one-hot 编码,但最终我会得到很大的输入向量,并且我会失去每个房间的特征之间的联系。我也想过使用嵌入,但我不确定最好的方法是组合特征/样本以正确输入所有数据,而不会丢失有关哪些特征来自哪些样本等的任何信息。

标签: pythonmachine-learningkerasneural-networkembedding

解决方案


正如下面链接的文章所暗示的那样……您可以选择三种路线之一。

  • 我认为序数编码不是您示例的正确用例
  • 您已有效排除的一种热编码。
  • 差异编码,我认为有点适合,因为有主卧室,次要卧室,客人卧室和儿童卧室。所以,试试那个角度。

链接到漂亮的文章

快乐编码:)


推荐阅读