首页 > 技术文章 > 深度学习中表示数据集的常用方法之设计矩阵

xmd-home 2018-09-05 16:30 原文

表示数据集的常用方法

 

表示数据集的常用方法是设计矩阵(design matrix)。

 

设计矩阵的每一行包含一个不同的样本。每一列对应于不同的特征。

 

例如,Iris数据集包含150个样本,每个样本有4个特征。这意味着我们可以将数据集表为设计矩阵 。

 

 

当然,每个样本都可以表示成向量,并且这些向量的维度相同,才能将一个数据集表示成设计矩阵。在许多情况下,存在着不同类型的异构数据,由于其向量的维度不同,无法表示为设计矩阵的形式。此时,不会将数据集表示成m行的矩阵,而是表示为M个元素的结合:

这种方式意味着和可以有不同的大小。

推荐阅读