首页 > 解决方案 > 在R中查找数据框的分组变量的交集

问题描述

我有一个这样的数据框:

df <- data.frame(
  names = c(rep("cody", 10), rep("sam", 5)),
  year  = c(paste0("year",2000:2009), paste0("year",2000:2004))
)

我想得到这样的输出:

df2 <- data.frame(
  names = c(rep("cody", 5), rep("sam", 5)), 
  year  = c(paste0("year",2000:2004), paste0("year",2000:2004))
)

有任何想法吗?

标签: rdataframemergerangeoverlap

解决方案


Reduce这是一个带有和的基本 R 方法intersect

dat[dat$year == Reduce(intersect, split(dat$year, dat$names)),]

返回

  names     year
1   cody year2000
2   cody year2001
3   cody year2002
4   cody year2003
5   cody year2004
11   sam year2000
12   sam year2001
13   sam year2002
14   sam year2003
15   sam year2004

在这里,我们使用Reduce重复向 提供参数(使用 以列表形式提供的每个名称的单独年份splitintersect,这消除了“不匹配”的年份,直到您最终只得到适用于所有名称的年份。

请注意,年份变量必须是字符向量,而不是因子变量。

作为一个小的简化,您可以使用with来减少dat$引用:

dat[with(dat, year == Reduce(intersect, split(year, names))),]

数据

dat <- 
structure(list(names = c("cody", "cody", "cody", "cody", "cody", 
"cody", "cody", "cody", "cody", "cody", "sam", "sam", "sam", 
"sam", "sam"), year = c("year2000", "year2001", "year2002", "year2003", 
"year2004", "year2005", "year2006", "year2007", "year2008", "year2009", 
"year2000", "year2001", "year2002", "year2003", "year2004")),
.Names = c("names", "year"), row.names = c(NA, -15L), class = "data.frame")

推荐阅读