首页 > 解决方案 > Python DataFrame 相关性超过 1.0?

问题描述

我使用了 DataFrame.corr() 函数来确定 5000x1000 矩阵的所有输入变量之间的相关性:

correlation_matrix = df.corr()

当我检查相关矩阵的最大值时,我收到一个略大于 1.. 的数字:

correlation_matrix.max().max()= 1.000029

当我通过以下检查进一步调查时:

counter = 0
for i in range(len(correlation_matrix.columns)):
    for j in range (len(correlation_matrix)):
        if correlation_matrix.iloc[i,j] > 1.0:
            counter += 1

..事实证明,其中大约 100 个实际上略高于 1,这应该是不可能的。这可能是什么原因?

标签: pythonpandascorrelation

解决方案


推荐阅读