首页 > 解决方案 > 在R中按行获取重复连续值的摘要

问题描述

我试图在 R 中按行获取重复值的一些统计信息(最小值、最大值、平均值)。

我的数据框看起来类似于:

b <- as.data.frame(matrix(ncol=7, nrow=3, 
     c(3,NA,NA,4,5,NA,7,6,NA,7,NA,8,9,NA,NA,4,6,NA,NA,7,NA), byrow = TRUE))

对于每一行,我想添加一列,其中包含最小值、最大值和平均值。包含连续 NA 的列,它应该是这样的

  V1 V2 V3 V4 V5 V6 V7 max min mean
1  3 NA NA  4  5 NA  7   2   1  1.5
2  6 NA  7 NA  8  9 NA   1   1  1.0
3 NA  4  6 NA NA  7 NA   2   1  1.33

这只是我的数据集的一个小例子,它有 2000 行和 48 列。

有人有这方面的代码吗?

标签: rapplynasummary

解决方案


您可以apply遍历行并获取非 NA 列的“运行”。一旦你有了它,你可以简单地获取这些的摘要统计信息:

b[,c("mean", "max", "min")] <- do.call(rbind, apply(b, 1, function(x){
                                                      res <- rle(!is.na(x))
                                                      res2 <- res[["lengths"]][res[["values"]]]
                                                      data.frame(mean = mean(res2), max = max(res2), min = min(res2))
                                                    }
                                                      ))

 b
#  V1 V2 V3 V4 V5 V6 V7     mean max min
#1  3 NA NA  4  5 NA  7 1.333333   2   1
#2  6 NA  7 NA  8  9 NA 1.333333   2   1
#3 NA  4  6 NA NA  7 NA 1.500000   2   1

推荐阅读