首页 > 解决方案 > 在数据表中选择一个均匀分布的样本

问题描述

假设我有一个如下所示的示例数据集:

df = data.table(id = 1:100,group=rep(c('a','b','c','d'),25))

我想从这组x非重叠样本中获取 80 个观察值。重要的特征是每个样本的分布在每个组之间必须是均匀的。

例如:

x=20 will give a first sample of
1 a
5 b
15 c
28 d

这是一个非常方便的例子,但它也必须适用于不太方便的情况(例如当 x=7 时)。

我的第一次尝试是使用split,如下所示:

df_split = split(df, as.numeric(as.factor(df$id)) %% 7)

这就是我想要的,除了它没有从每个组中统一挑选!

标签: rdata.tablesample

解决方案


如果我理解正确,因为您正在寻找 7 组 80 个样本,您可能希望将其作为循环运行:

dt <- data.table(id = 1:100,group=rep(c('a','b','c','d'),25))

newmat <- data.frame(Index = 1:80)
for(i in 1:7){
  k <- NULL
  for(j in unique(dt$group)){
    dt.sub <- dt[group == j]
    samps <- sample_n(dt.sub, 20, replace = F)
    k <- c(k,samps$id)
  }
  newmat <- cbind(newmat, k)
}

colnames(newmat) <- c("Index", paste0("k",1:7))

推荐阅读