python - 如何在熊猫分组后获得两组之间的p值?
问题描述
我被困在如何应用自定义函数来计算从 pandas groupby 获得的两组的 p 值。
词汇
test = 0 ==> test
test = 1 ==> control
问题设置
import numpy as np
import pandas as pd
import scipy.stats as ss
np.random.seed(100)
N = 15
df = pd.DataFrame({'country': np.random.choice(['A','B','C'],N),
'test': np.random.choice([0,1], N),
'conversion': np.random.choice([0,1], N),
'sex': np.random.choice(['M','F'], N)
})
ans = df.groupby(['country','test'])['conversion'].agg(['size','mean']).unstack('test')
ans.columns = ['test_size','control_size','test_mean','control_mean']
test_size control_size test_mean control_mean
country
A 3 3 0.666667 0.666667
B 1 1 1.000000 1.000000
C 4 3 0.750000 1.000000
问题
现在我想再添加两列来获取测试组和对照组之间的 p 值。但是在我的 groupby 中,我一次只能对一个系列进行操作,我不确定如何使用两个系列来获得 p 值。
到目前为止完成:
def get_ttest(x,y):
return stats.ttest_ind(x, y, equal_var=False).pvalue
pseudo code:
df.groupby(['country','test'])['conversion'].agg(
['size','mean', some_function_to_get_pvalue])
如何获取 p 值列?
必填答案
我需要获取列pvalue的值
test_size control_size test_mean control_mean pvalue
country
A 3 3 0.666667 0.666667 ?
B 1 1 1.000000 1.000000 ?
C 4 3 0.750000 1.000000 ?
解决方案
你可以这样做:
import numpy as np
import pandas as pd
import scipy.stats as stats
def get_ttest(x,y,sided=1):
return stats.ttest_ind(x, y, equal_var=False).pvalue/sided
np.random.seed(100)
N = 15
df = pd.DataFrame({'country': np.random.choice(['A','B','C'],N),
'test': np.random.choice([0,1], N),
'conversion': np.random.choice([0,1], N),
'sex': np.random.choice(['M','F'], N)
})
col_groupby = 'country'
col_test_control = 'test'
col_effect = 'conversion'
a,b = df[col_test_control].unique()
df_pval = df.groupby([col_groupby,col_test_control])\
[col_effect].agg(['size','mean']).unstack(col_test_control)
df_pval.columns = [f'group{a}_size',f'group{b}_size',
f'group{a}_mean',f'group{b}_mean']
df_pval['pvalue'] = df.groupby(col_groupby).apply(lambda dfx: get_ttest(
dfx.loc[dfx[col_test_control] == a, col_effect],
dfx.loc[dfx[col_test_control] == b, col_effect]))
df_pval.pipe(print)
结果
test_size control_size test_mean control_mean pvalue
country
A 3 3 0.666667 0.666667 1.000000
B 1 1 1.000000 1.000000 NaN
C 4 3 0.750000 1.000000 0.391002
测试结果
# test for country C
c0 = df.loc[(df.country=='C') & (df.test==0),'conversion']
c1 = df.loc[(df.country=='C') & (df.test==1),'conversion']
pval = stats.ttest_ind(c0, c1, equal_var=False).pvalue
print(pval) # 0.39100221895577053
推荐阅读
- android - setHomeAsUpIndicator 的 Android 片段示例
- java - 无法加载文件:资产
- arrays - 开发一个类一个一维数组和这个类的两个实例
- python - Django重定向保留子路径
- ansible - 如何从 Ansible AWX(Ansible Tower Web 控制台)设置 Ansible Fact Collection
- python - 如何连接多个变量?
- javascript - 我无法弄清楚为什么我会收到以下错误“错误:元素类型无效:”
- javascript - Android Webview 内部的 ES6 导入 - 不是构造函数错误
- excel - Excel VBA中图表轴的字符间距
- python - 蝗虫似乎触发 request_success 事件挂钩 60 倍于我的实际请求