首页 > 解决方案 > 查找我在 R 中已有数据的缺失值

问题描述

我正在处理一个大数据集。数据是由不同的人输入的,有点乱。

我们的数据看起来像这样......

Name     Brothers   Sisters   Children
John        2           1         2
James       1           0         1
Joshua      4           1         4 
James       0           0         0 
John        2           1         NA
Willian     1           1         1
Peter       2           2         0 
James       1           0         NA 
Micahel     2           1         2

有些名字是重复的。但是,有时当孩子们应该有数据时,他们的列中有一个 NA 。有了这个例子,修复起来很容易,但我们估计至少有 200 个可能会发生这种情况。所以,我的问题是:

有没有办法搜索我们有多少 NA 的数据?如果它可以从另一个那里获取数据,那就更好了。

但至少我想知道有多少或创建一个丢失的列表,以便我们修复这个错误。

谢谢。

标签: r

解决方案


您可以使用fill()fromtidyr按组填充缺失值。

library(dplyr)
library(tidyr)
df1 <- read.table(text = "
Name     Brothers   Sisters   Children
John        2           1         2
James       1           0         1
Joshua      4           1         4 
James       0           0         0 
John        2           1         NA
Willian     1           1         1
Peter       2           2         0 
James       1           0         NA 
Micahel     2           1         2
", header = TRUE)


df2 <- df1 |> 
      group_by(Name) |> 
      fill(Children)

推荐阅读