首页 > 解决方案 > 如何在python中使用Z分数计算相关性?

问题描述

我在熊猫数据框中有类似于下表的数据:

  Z(A) Z(B) Z(TARGET)
1  0.4 0.17   0.96
2  0.2 0.37   0.45
3  0.1 -0.4   1.1
...

那么,是否可以仅使用 z 分数(最好使用 pandas 库)来计算AB的相关性?TARGET

我知道 pandas 库corr在其DataFrame类中有方法,并且我在这里看到了其他有关使用该方法的问题。但是这些问题中的数据是原始数据(即A, B, TARGET),而我只有这些数据的 z 分数(即Z(A), Z(B), Z(TARGET))。我也可以将corr函数应用于我的 Z 表,还是需要使用其他方法计算AwithTARGETBwith的相关性?TARGET

我知道这个问题更多的是关于数学而不是编程,所以,如果我把它贴错了地方,很抱歉。但它与两者都有关系。

标签: pythonpandasstatistics

解决方案


你不能在这里使用 corr ,至少不能单独使用。Pearson 相关性可以通过这个公式http://davidmlane.com/hyperstat/A51911.html从 z 分数获得。我会编写一个函数来求和,然后使用 for 循环和 df.iloc[] 遍历数据帧。它可能会足够快,只是不够漂亮。


推荐阅读