首页 > 解决方案 > PCA 后每个维度的数据都具有相同的值

问题描述

在大数据集上执行 PCA 后,我遇到了一个错误(?)。我有大约。2000 次测量和 ca。50 个特征/尺寸。我执行 PCA 以减少维数。我只想有 20-30 个维度。但是在我将它投影到新的 PCA 特征空间后,我的数据看起来确实很奇怪。每个维度都有相同的值,除了第一个。不管我为 PCA 设置了多少维度,我的数据总是看起来像这样:(以三个维度为例,四个测量值)

10075.1;2.00177e-23;7.70922e-43
10114.6;2.00177e-23;7.70922e-43
10192.9;2.00177e-23;7.70922e-43
9843.2;2.00177e-23;7.70922e-43

是什么原因?为什么我只有第一个功能的好数据?这是原始数据:

0;24;54;167;19.3625;46;24;21;298.575;254.743;1.17207;1.73611;2.26757;18;15;14;12;9;8;4;15;13;12;9;8;4;33;28;26;21;17;15;8;0;0;1;92283.9;19441.8;16337;11731.8;6796.85;2215.39;1861.07;3516.91;4587.27;4130.99;7.38638;8;9.41167;10.5923;14;19.9733
0;24;54;167;19.3625;45;23;21;272.609;244.143;1.11659;1.89036;2.26757;17;15;14;11;9;7;4;16;13;12;9;8;4;33;28;26;20;17;14;8;0;1;1;92298.5;19414.8;16445.3;11871.4;6873.36;2071.48;1845.56;4483;4588.43;2854.95;7.06929;8;9.08176;10.0947;14;19.1412
0;24;54;167;19.3625;45;23;21;256.58;248.081;1.03426;1.89036;2.26757;17;15;14;11;9;7;4;15;13;12;9;8;4;32;28;26;20;17;14;8;0;1;1;92262.9;19449.6;16602.1;12066.9;6875.38;1762.22;1813.8;4461.31;4605.87;4540.53;6.72761;7;9.17784;10.0404;14;19.0638
0;24;54;167;19.3625;45;22;23;228.664;293.1;0.780157;2.06612;1.89036;16;14;13;10;8;7;4;17;14;13;10;8;3;33;28;26;20;16;13;7;1;0;0;92047.3;19594.2;16615.9;11855.3;6357.26;1412.1;1931.18;3292.93;4305.41;3125.78;7.14206;7;9.15515;10.0013;14;18.9998

以下是特征值和特征向量:

120544647.296627;
1055287.207309433;
788517.1814841435

4.445188101138883e-06, -1.582751359550716e-06, 0.0001194540407426801, 8.805619419232736e-05, 1.718812629108742e-05, -6.478627494871924e-06, 1.866065159173557e-06, -8.102268773738454e-06, 0.001575116366026065, 0.001368858662087531, 2.42338448583798e-06, 1.468791084230193e-07, 1.619495879919206e-08, 2.045676050284675e-06, 4.522426974955079e-06, 1.935642018365442e-06, 9.400348593348646e-07, 3.50785209102226e-06, -6.886458171608557e-07, -2.272864941126205e-06, -4.576437628645375e-06, -3.711985547436847e-06, -4.179746481364989e-06, -1.080958836802159e-06, 3.018347636693104e-06, -5.401065369031065e-08, -1.776343529071431e-06, -3.239711622030108e-06, 2.426893254220096e-06, 2.329701819532251e-06, -1.335049163771412e-06, -2.016447535744125e-06, -2.48848684914049e-06, 1.034821043317487e-06, 0.9509463574053698, 0.2040750414336948, 0.1698045366243798, 0.1221511665292666, 0.06648621927929886, 0.01787357780337607, 0.02181878649610538, 0.04094056949392437, 0.04589005034245261, 0.03602144595540402, 4.638015609510389e-05, -9.594011737623517e-07, 5.643329708389021e-05, 6.49999142971481e-05, 6.708699420903862e-07, 0.0001209291154324417;
 -1.193874321738139e-05, -3.042062337012123e-05, -0.0001368023572559274, -0.0001093928140002418, -1.847065231448535e-05, 3.847106756849437e-05, -1.23803319528626e-05, 2.082402112096706e-06, -0.002107941678699949, -0.0007526438176676972, -1.304240623192574e-06, -4.358106348750469e-06, 4.189661461745327e-06, 3.972537960568455e-07, 5.415441896012467e-06, -3.487031299718403e-06, -3.082927770719131e-06, -6.180776247962886e-06, -3.293811231853141e-06, -3.069190535161948e-06, 9.242946297782889e-06, 1.849824602072292e-06, 8.007250998398399e-06, 9.597348504390614e-06, -7.976030386807306e-07, 1.465838819379542e-05, -1.637206697646072e-06, 4.924323227679534e-06, 3.416572256427778e-06, -4.091414270533951e-06, 3.950956777004832e-06, -1.425709512894606e-05, -1.612907157276045e-06, -1.656147283798045e-06, 0.01791626179130883, -0.03865588909604983, -0.02237813174629856, -0.011581970882016, 0.008401303497694863, 0.00598682750741207, -0.02647921936520565, -0.08745349044258101, -0.6199482703379527, 0.7776587660292456, -2.204501859699998e-05, 3.065799954216684e-06, -0.0001088757748474737, -9.070630703475932e-05, -1.507680849966721e-05, -0.000203298163659711;
 2.141350692234778e-05, 3.763794188497906e-05, 0.0002682046623337108, 0.0002761646438217766, 2.250001958053043e-05, -4.493680340744517e-05, 1.71038513853044e-05, 4.793887034272248e-05, -0.002472775598056956, -0.002583273192861402, -2.360815196252781e-05, 8.57575614248591e-07, -2.277442903271404e-06, -9.431493206768549e-06, 2.836934896747011e-06, 1.836715455464421e-05, 2.384241283455247e-05, 4.963711569589484e-06, 1.390892651258379e-05, 2.354454084909798e-05, 2.358174073858803e-05, 3.953694936818999e-05, 3.859322887829735e-05, 4.383431246805508e-06, 9.501429817743515e-06, 2.641867563533516e-05, 5.790410392283418e-05, 6.243564171284964e-05, 9.347142816394926e-06, 2.341035633032736e-05, 3.140572721234472e-05, 2.567884918875704e-06, -2.488581283389154e-06, -1.083945623896245e-05, -0.02381539022135584, 0.1464545802416884, 0.09922198413600333, 0.009864006965697942, -0.07588888859083308, -0.1732512868035658, 0.2074803672415529, 0.5543971362454099, -0.6344797023718978, -0.4234201679790431, -0.0001368109107852992, 2.172633922404158e-07, -0.0001132510107743674, -7.90184051908068e-05, 1.89704719379068e-05, -0.0001862727476251848

我认为第一个特征差异如此之大的原因是因为第一个特征值与其他两个特征值相比非常大。当我在 PCA 之前标准化我的数据时,我得到非常相似的特征值:

0.6660936495675316;
0.6449413383086006;
0.383110906838073

但数据在 PCA 空间中投影后看起来仍然相似:

-0.816894;7.1333e-67;2.00113e-23
-0.822324;7.1333e-67;2.00113e-23
-0.831973;7.1333e-67;2.00113e-23
-0.822553;7.1333e-67;2.00113e-23

标签: pca

解决方案


问题是特征 2、3 和 4 的所有数据都与第一个特征非常接近或完全相同,这就是结果不是很好的原因。差异的幅度也可能不足以捕捉数据的方差。

PCA 通过获取特征之间的协方差来工作。您可能想查看 PCA 生成的协方差矩阵。我怀疑所有的值都非常接近。大部分方差由矩阵的第一个特征向量捕获。


推荐阅读