首页 > 解决方案 > 如何对数据框列表中的每个数据框进行分组和汇总

问题描述

我有一个数据框列表:

df1 <- data.frame(one = c('red','blue','green','red','red','blue','green','green'),
                  one.1 = as.numeric(c('1','1','0','1','1','0','0','0')))

df2 <- data.frame(two = c('red','yellow','green','yellow','green','blue','blue','red'),
                  two.2 = as.numeric(c('0','1','1','0','0','0','1','1')))

df3 <- data.frame(three = c('yellow','yellow','green','green','green','white','blue','white'),
                  three.3 = as.numeric(c('1','0','0','1','1','0','0','1')))

all <- list(df1,df2,df3)

我需要按第一列对每个数据框进行分组并总结第二列。个人我会做这样的事情:

library(dplyr)

df1 <- df1 %>%
  group_by(one) %>%
  summarise(sum = sum(one.1))

但是,我无法弄清楚如何遍历列表中的每个项目。

我想过使用循环:

for(i in 1:3){
      all[i] <- all[i] %>%
      group_by_at(1) %>%
      summarise()
}

但是我不知道如何在 summarise() 函数中指定要求和的列(无论如何,这个循环可能在其他方面都是错误的)。

理想情况下,我需要输出是另一个列表,每个项目都是汇总数据,如下所示:

[[1]]
# A tibble: 3 x 2
  one     sum
  <fct> <dbl>
1 blue      1
2 green     0
3 red       3

[[2]]
# A tibble: 4 x 2
  two      sum
  <fct>  <dbl>
1 blue       1
2 green      1
3 red        1
4 yellow     1

[[3]]
# A tibble: 4 x 2
  three    sum
  <fct>  <dbl>
1 blue       0
2 green      2
3 white      1
4 yellow     1

非常感谢任何帮助!

标签: rdplyr

解决方案


这是一个基本的 R 解决方案:

lapply(all, function(DF) aggregate(list(added = DF[, 2]), by = DF[, 1, drop = F], FUN = sum))

[[1]]
    one added
1  blue     1
2 green     0
3   red     3

[[2]]
     two added
1   blue     1
2  green     1
3    red     1
4 yellow     1

[[3]]
   three added
1   blue     0
2  green     2
3  white     1
4 yellow     1

另一种方法是将列表绑定为一个。在这里,我使用data.table并避免使用名称。唯一的问题是这可能会混淆因素,但我不确定这是否是您的问题。

library(data.table)
rbindlist(all, use.names = F, idcol = 'id'
          )[, .(added = sum(one.1)), by = .(id, color = one)]

    id  color added
 1:  1    red     3
 2:  1   blue     1
 3:  1  green     0
 4:  2    red     1
 5:  2 yellow     1
 6:  2  green     1
 7:  2   blue     1
 8:  3 yellow     1
 9:  3  green     2
10:  3  white     1
11:  3   blue     0

推荐阅读