首页 > 解决方案 > 根据不同的变量在 R 中求和

问题描述

我有如下所示的数据集:

match_id batting_team ball over total_runs
1        Team_X       1    1    2
1        Team_X       2    1    0
1        Team_X       3    1    1
1        Team_X       4    1    0
1        Team_X       5    1    2
1        Team_X       6    1    2
1        Team_X       1    2    2
1        Team_X       2    2    0
1        Team_X       3    2    1
1        Team_X       4    2    0
1        Team_X       5    2    2
1        Team_X       6    2    2

然后数据继续显示每支球队在每个球中的跑动。我想添加一个列,显示每场比赛每支球队每轮每轮的得分。目的是继续绘制一个线性回归模型,以显示与比赛中的比赛次数相比,比赛中的跑步次数。有人有建议吗?

标签: rdplyr

解决方案


dplyr您可以使用包为每支球队的每场比赛在每场比赛中获得所需的运行输出。对于回归,我建议您在经过验证的堆栈中发布消息。

library(dplyr)
df %>% group_by(matchid, bat_team, over) %>% summarise(over_run = sum(runs))

数据

df <- data.frame(matchid = rep(1:2, 20), bat_team = rep(c("A", "B"), each = 20), 
             ball = rep(1:6, length.out = 40), over = rep(1:4, each = 10), runs = sample(1:6, 40, replace = T))

推荐阅读