首页 > 解决方案 > n维数据的高斯KDE:数组的前导次要不是正定的

问题描述

我有两个 n 维数据子集,A并且B我想知道,对于来自它周围B的样本密度中的每个样本。A

具有 3 个维度的 5 个样本的示例数据集

A = np.array([[-2.44528668, -0.09326276, -1.06527892],
       [-1.35144799, -1.45507518, -0.02096   ],
       [-0.5788315 , -1.48932706, -0.28496559],
       [-1.60224949, -0.76823424, -0.11548589],
       [-1.15768561, -0.74704022, -0.14744463]])

B = np.array([[-1.84134663, -1.42036525, -1.38819347],
       [-2.58165693, -2.49423057, -1.57609454],
       [-0.78776371, -0.79168188,  0.21967791],
       [-1.0165618 , -1.78509185, -0.68373997],
       [-1.21764947, -0.43215885, -0.34393573]])

我尝试执行以下操作

from scipy.stats import gaussian_kde

kernel = gaussian_kde(A)
densities = kernel(B)

但这引发了

LinAlgError: 2-th leading minor of the array is not positive definite

这个错误是什么意思,我怎样才能得到A每个样本的点密度B

标签: pythonscipykernel-density

解决方案


根据我收到的错误消息

kernel = gaussian_kde(A)
densities = kernel(B[0])

我认为将gaussian_kde每一列视为一个样本,将每一行视为第 n 维中的坐标,因此我应该改用数组的转置。

所以为了得到我想要的结果,我应该做

kernel = gaussian_kde(A.T)
densities = kernel(B.T)

但我仍然不知道我收到的错误消息是什么意思。


推荐阅读