首页 > 解决方案 > 用条件对大数据框进行子集化

问题描述

我有以下数据集:

ID  s1  s2  s3
A   0.6 1   0.3
B   3   0.4 0.4
C   3   2   1
D   0   0.3 0.2
E   3   2   0.1

我想保留值 >=0.5 的行至少 3 个样本中的两个

因此,新的数据框将是:

ID  s1  s2  s3
A   0.6 1   0.3
C   3   2   1
E   3   2   0.1

提前致谢

标签: r

解决方案


你可以做

df[rowSums(df[-1] > 0.5) >= 2, ]
#  ID  s1 s2  s3
#1  A 0.6  1 0.3
#3  C 3.0  2 1.0
#5  E 3.0  2 0.1

我们创建一个逻辑矩阵df[-1] > 0.5并检查每行是否至少有两个值TRUE

数据

df <- read.table(text="ID  s1  s2  s3
A   0.6 1   0.3
B   3   0.4 0.4
C   3   2   1
D   0   0.3 0.2
E   3   2   0.1", header = TRUE, stringsAsFactor = FALSE)

推荐阅读