首页 > 解决方案 > 如何使用 pandas 数据框和特定条件运行假设检验?

问题描述

我正在尝试使用模型 ols 进行假设检验。我正在尝试根据我的数据框中的四个组来做这个模型 Ols 来计算推文。这四个群体是运动员、首席执行官、政治家和名人。我有四个组,每个组在一个列中为每个名称标记为一个组。

frames = [CEO_df, athletes_df, Celebrity_df, politicians_df]
final_df = pd.concat(frames)
final_df=final_df.reindex(columns=["name","group","tweet_count","retweet_count","favorite_count"])
final_df
model=ols("tweet_count ~ C(group)", data=final_df).fit()
table=sm.stats.anova_lm(model, typ=2)
print(table)

我想做一些类似的事情:

model=ols("tweet_count ~ C(Athlete) + C(Celebrity) + C(CEO) + C(Politicians)", data=final_df).fit()
table=sm.stats.anova_lm(model, typ=2)
print(table)

这甚至可能吗?在这些条件下,我还能如何进行假设检验?

这是我打印的 final_df:

name    group   tweet_count retweet_count   favorite_count
0   @aws_cloud @ #ReInvent R “Ray” Wang 王瑞光 #1A CEO 6   6   0
1   Aaron Levie CEO 48  1140    18624
2   Andrew Mason    CEO 24  0   0
3   Bill Gates  CEO 114 78204   439020
4   Bill Gross  CEO 36  486 1668
... ... ... ... ... ...
56  Tim Kaine   Politician  48  8346    50898
57  Tim O'Reilly    Politician  14  28  0
58  Trey Gowdy  Politician  12  1314    6780
59  Vice President Mike Pence   Politician  84  1146408 0
60  klay thompson   Politician  48  41676   309924

标签: pythonpandasstatsmodelsanova

解决方案


推荐阅读