首页 > 解决方案 > 如何从一组稀疏矩阵构建训练数据

问题描述

我正在尝试为 2 类分类问题(比如 A 类和 B 类)建立一个模型。我有两个数据集,我想从中生成训练、测试和验证数据集(如下所示):

  1. Dataset-1:该数据集有 1092 个 A 类样本,每个样本作为 1481x163 的特征矩阵和 1 个标签(即 A 类)。该数据集的每个样本都具有相同的索引,长度为 1481(假设是一组生物标志物)和相同的 163 个特征。矩阵非常稀疏。

  2. 数据集 2:该数据集是 82 个 B 类样本,其中每个样本具有与 A 类相同大小的特征矩阵(即 1481 个生物标志物 x 163 个特征)和 1 个标签(即 B 类)。在这里,矩阵也非常稀疏。

我想为两类分类建立一个模型,但我的问题是如何通过组合两个类来生成一个单一的特征矩阵(尤其是对于非人工神经网络模型,如 RF、SVM 等)。通过每个矩阵的垂直或水平展平然后将它们连接起来可能没有用,因为数组的大小将非常大,并且很难从 163 个特征中找到重要特征。

请建议。

标签: pythonmatrixsvmrandom-forestfeature-selection

解决方案


推荐阅读