首页 > 解决方案 > 按组标准化变量 - 为什么平均值总是为零?

问题描述

我有以下数据:

df = pd.DataFrame({'sound': ['A', 'B', 'B', 'A', 'B', 'A'],
                   'score': [10, 5, 6, 7, 11, 1]})
print(df)

  sound  score
0     A     10
1     B      5
2     B      6
3     A      7
4     B     11
5     A      1

如果我标准化(即 Z 分数)score变量,我会得到以下值。新z列的平均值基本上为 0,SD 为 1,这两者都是标准化变量的预期值:

df['z'] = (df['score'] - df['score'].mean())/df['score'].std()
print(df)
print('Mean: {}'.format(df['z'].mean()))
print('SD: {}'.format(df['z'].std()))

  sound  score         z
0     A     10  0.922139
1     B      5 -0.461069
2     B      6 -0.184428
3     A      7  0.092214
4     B     11  1.198781
5     A      1 -1.567636
Mean: -7.401486830834377e-17
SD: 1.0

但是,我真正感兴趣的是根据组成员身份计算 Z 分数 ( sound)。例如,如果分数来自声音 A,则仅使用声音 A 值的平均值和 SD 将该值转换为 Z 分数。同样,声音 BZ 分数将仅使用声音 B 的平均值和 SD。与常规 Z 分数计算相比,这显然会产生不同的值:

df['zg'] = df.groupby('sound')['score'].transform(lambda x: (x - x.mean()) / x.std())
print(df)
print('Mean: {}'.format(df['zg'].mean()))
print('SD: {}'.format(df['zg'].std()))

  sound  score         z        zg
0     A     10  0.922139  0.872872
1     B      5 -0.461069 -0.725866
2     B      6 -0.184428 -0.414781
3     A      7  0.092214  0.218218
4     B     11  1.198781  1.140647
5     A      1 -1.567636 -1.091089
Mean: 3.700743415417188e-17
SD: 0.894427190999916

我的问题是:为什么基于组的标准化值 ( zg) 的平均值也基本等于 0?这是预期的行为还是我的计算中有错误?

z分数是有道理的,因为在变量内进行标准化基本上会将平均值强制为 0。但是这些值zg是使用每个声音组的不同平均值和 SD 计算的,所以我不确定为什么该新变量的平均值也被设置为 0 .

我可以看到这种情况发生的唯一情况是,如果值的总和 > 0 等于值的总和 < 0,当平均时会抵消为 0。这发生在常规的 Z 分数计算中,但我很惊讶这像这样跨多个组进行操作时也会发生...

标签: pythonpandasstandardized

解决方案


是的,这是预期的行为。

用花哨的话来说,使用迭代期望定律

在此处输入图像描述

具体来说,如果群Y是有限的,因此是可数的,

在此处输入图像描述

在哪里

在此处输入图像描述

但是,通过构造,everyE[X|Y_j]适用于您的一组可能组中0的所有值。YG

因此,总平均值也将为零。


推荐阅读