首页 > 解决方案 > 从具有相同列结构的多个数据框中删除基于特定条件的列

问题描述

我有 4 个数据框,用于 4 个不同的数据组(总共 16 个数据框),具有相同的列结构,每个都有列 a、b、c、d 等(超过数百列),但每个数据框的值不同。唯一相同的是每个“数据组”的变量数和列名(在某种程度上,但没有模式。列名是项目的名称,而不是 a、b、c 等)。

例如:

dat1 = data.frame(x = c(0.1,0.2,0.3,0.4,0.5),
                  y = c(0.6,0.7,0.8,0.9,0.10), 
                  z = c(0.12,0.13,0.14,0.15,0.16))    

产生

   x   y    z
1 0.1 0.6 0.12
2 0.2 0.7 0.13
3 0.3 0.8 0.14
4 0.4 0.9 0.15
5 0.5 0.1 0.16

和第二个数据框

dat2 = data.frame(x = c(1,2,3,4,5), y = c(6,7,8,9,10), z = c(12,13,14,15,16))

  x  y  z
1 1  6 12
2 2  7 13
3 3  8 14
4 4  9 15
5 5 10 16

我想dat1根据某些标准进行数据清理,这样如果我删除列x中的列,dat1那么列中的列x也将被删除dat2。这些具体标准可以是

dat1[,tail(dat1, n = 1) < 0.2] 

   y    z
1 0.6 0.12
2 0.7 0.13
3 0.8 0.14
4 0.9 0.15
5 0.1 0.16

这样dat2也会自动删除 colunm x

   y  z
1  6 12
2  7 13
3  8 14
4  9 15
5 10 16

有没有办法做到这一点?我一直试图在 StackOverflow 上搜索它,但我找不到任何有用的东西。谢谢。

标签: rdataframedata-cleaning

解决方案


像这样的东西?
使用您发布的数据,它可以按预期工作。

cols.to.remove <- function(DF1, DF2) {
    d <- setdiff(names(DF1), names(DF2))
    -which(d %in% names(DF1))
}


dat2 <- dat2[cols.to.remove(dat2, dat1)]
dat2
#   y  z
#1  6 12
#2  7 13
#3  8 14
#4  9 15
#5 10 16

推荐阅读