r - R:根据数据框中所有变量的唯一ID替换一行中的缺失值
问题描述
我正在使用一个“长”数据框,其中独特的参与者随着时间的推移有多个观察结果。有些行缺少跨多个列的数据,而这些缺失的记录需要为每个参与者填充相同的数据。
我的数据集如下所示:
list(
ID = c("A23", "A23", "A24", "A24", "A24", "A50", "A50", "A60", "A60"),
A = c("Y", "Y", "N", "N", NA, "Y", NA, "N", "N"),
B = c(2.4, 2.4, 2.6, 2.6, NA, 2.2, NA, 3.3, 3.3),
C = c("M", "M", "F", "F", NA, "F", NA, "M", "M"),
D = c(1, 1, 0, 0, NA, 1, NA, 1, 1),
E = c("2015-02-16", "2017-10-05", "2014-03-26", "2016-09-07", "2018-10-08", "2015-02-17", "2017-10-06", "2014-03-27", "2016-09-08"))
我希望能够简单地从完整/非缺失行中复制数据,并将其粘贴到基于ID
变量的缺失记录中,跨越整个数据框。
我尝试了以下方法无济于事(没有替换缺失值):
library(tidyverse)
library(zoo)
library(plyr)
# Attempt 1:
data %>%
group_by(ID) %>%
mutate_all(~replace(., is.na(.), .[!is.na(.)][1]))
# Attempt 2:
plyr::ddply(data, ~ID, na.locf)
对于需要替换单个列的缺失值的情况,我找到了解决方案,但我还没有找到在整个数据帧中替换缺失值的解决方案。
提前致谢。
解决方案
您可以使用 dplyr 中的 group_by/mutate 方法解决此问题:
library(dplyr)
df <- tibble(
ID = c("A23", "A23", "A24", "A24", "A24", "A50", "A50", "A60", "A60"),
A = c("Y", "Y", "N", "N", NA, "Y", NA, "N", "N"),
B = c(2.4, 2.4, 2.6, 2.6, NA, 2.2, NA, 3.3, 3.3),
C = c("M", "M", "F", "F", NA, "F", NA, "M", "M"),
D = c(1, 1, 0, 0, NA, 1, NA, 1, 1),
E = c("2015-02-16", "2017-10-05", "2014-03-26", "2016-09-07", "2018-10-08",
"2015-02-17", "2017-10-06", "2014-03-27", "2016-09-08"))
fix_nas <- function(x){
x[complete.cases(x)][1]
}
df %>%
group_by(ID) %>%
mutate_at(2:5, fix_nas)
推荐阅读
- azure - 使用 Azure Cli 删除 Azure 文件共享中的旧文件
- python - 熊猫每周时间表,包括假期
- node.js - 我需要在 NPM package.json 和主 index.html 中添加 Babel 和 React 还是只在一个地方就足够了?
- php - 使用 Str::random (或原生 php 方法)的两个标记重合的情况
- reactjs - 如何在 React Native 中实现类似 Android 片段的功能
- c# - 打开包含同名文件的 Zip 文件
- ionic-framework - 使用 Ionic 的移动辅助功能不起作用
- python - 为什么我不能在 VSCode 中查看 Python 某些模块的定义?
- azure-data-factory - 如何获取映射数据流内部的映射数据流名称?
- python - 如何在 Python 中将 Azure Blob 存储中的 CSV 作为流处理