首页 > 解决方案 > 为什么没有在 Python 中计算完整的相关矩阵?

问题描述

我有一个包含 4 个变量(轴承 1 到轴承 4)和 20152319 没有观察值的数据集。它看起来像这样:

我正在处理的数据集的快照

现在,我试图找到 4 个变量的相关矩阵。我使用的代码是这样的:

corr_mat = Data.corr(method = 'pearson')
print(corr_mat)

但是在结果中,我只得到了轴承 2 到轴承 4 的相关信息。轴承 1 无处可见。我在下面提供了结果的快照:

相关矩阵的快照

我尝试从每个变量中删除 NULL 值,并尝试查找缺失值,但没有任何效果。有趣的是,如果我隔离前两个变量(轴承 1 和轴承 2),然后尝试找到它们之间的相关矩阵,轴承 1 不会出现并且矩阵是只有轴承 2 的 1x1 矩阵

任何关于为什么会发生这种情况以及如何解决它的解释将不胜感激。

标签: pythonpandaspearson-correlation

解决方案


尝试查看第一列“轴承 1”是否为数字。

Data.dtypes # This will show the type of each column

cols = Data.columns # Saving column names to a variable
Data[cols].apply(pd.to_numeric, errors='coerce') # Converting the columns to numeric

现在应用你的计算,

corr_mat = Data.corr(method = 'pearson')
print(corr_mat)

推荐阅读