首页 > 解决方案 > R:根据数据框中所有变量的唯一ID替换一行中的缺失值

问题描述

我正在使用一个“长”数据框,其中独特的参与者随着时间的推移有多个观察结果。有些行缺少跨多个列的数据,而这些缺失的记录需要为每个参与者填充相同的数据。

我的数据集如下所示:

list(
ID = c("A23", "A23", "A24", "A24", "A24", "A50", "A50", "A60", "A60"), 
A = c("Y", "Y", "N", "N", NA, "Y", NA, "N", "N"), 
B = c(2.4, 2.4, 2.6, 2.6, NA, 2.2, NA, 3.3, 3.3), 
C = c("M", "M", "F", "F", NA, "F", NA, "M", "M"), 
D = c(1, 1, 0, 0, NA, 1, NA, 1, 1), 
E = c("2015-02-16", "2017-10-05", "2014-03-26", "2016-09-07", "2018-10-08", "2015-02-17", "2017-10-06", "2014-03-27", "2016-09-08"))

我希望能够简单地从完整/非缺失行中复制数据,并将其粘贴到基于ID变量的缺失记录中,跨越整个数据框。

我尝试了以下方法无济于事(没有替换缺失值):

library(tidyverse)
library(zoo)
library(plyr)

# Attempt 1:
data %>%
  group_by(ID) %>%
  mutate_all(~replace(., is.na(.), .[!is.na(.)][1]))

# Attempt 2:
plyr::ddply(data, ~ID, na.locf)

对于需要替换单个列的缺失值的情况,我找到了解决方案,但我还没有找到在整个数据帧中替换缺失值的解决方案。

提前致谢。

标签: rdplyrtidyrmissing-datadata-wrangling

解决方案


您可以使用 dplyr 中的 group_by/mutate 方法解决此问题:

library(dplyr)
df <- tibble(
  ID = c("A23", "A23", "A24", "A24", "A24", "A50", "A50", "A60", "A60"), 
  A = c("Y", "Y", "N", "N", NA, "Y", NA, "N", "N"), 
  B = c(2.4, 2.4, 2.6, 2.6, NA, 2.2, NA, 3.3, 3.3), 
  C = c("M", "M", "F", "F", NA, "F", NA, "M", "M"), 
  D = c(1, 1, 0, 0, NA, 1, NA, 1, 1), 
  E = c("2015-02-16", "2017-10-05", "2014-03-26", "2016-09-07", "2018-10-08", 
 "2015-02-17", "2017-10-06", "2014-03-27", "2016-09-08"))



fix_nas <- function(x){
  x[complete.cases(x)][1]

}

df %>% 
  group_by(ID) %>% 
  mutate_at(2:5, fix_nas) 

推荐阅读