首页 > 解决方案 > 用前一行的值替换 NA 或用 R 中的向量循环进行变异

问题描述

嘿 :) 我目前正在尝试清理一些数据,并且正在努力寻找一个简单的解决方案。这是我的数据集:

structure(list(sample = c(1, NA, NA, 2, NA, NA, 3, NA, NA, 4, 
NA, NA, 5, NA, NA, 6, NA, NA, 7, NA, NA, 8, NA, NA, 9, NA, NA, 
10, NA, NA, 11, NA, NA, 12, NA, NA, 13, NA, NA, 14, NA, NA, 15, 
NA, NA, 16, NA, NA, 17, NA, NA, 18, NA, NA, 19, NA, NA, 20, NA, 
NA), well = c("C1", "C3", "C5", "D1", "D3", "D5", "E1", "E3", 
"E5", "F1", "F3", "F5", "C7", "C9", "C11", "D7", "D9", "D11", 
"E7", "E9", "E11", "F7", "F9", "F11", "C13", "C15", "C17", "D13", 
"D15", "D17", "E13", "E15", "E17", "F13", "F15", "F17", "C19", 
"C21", "C23", "D19", "D21", "D23", "E19", "E21", "E23", "F19", 
"F21", "F23", "G1", "G3", "G5", "H1", "H3", "H5", "I1", "I3", 
"I5", "J1", "J3", "J5"), interp_conc = c(456582, 299611, 338462, 
449737, 395905, 546031, 511817, 473617, 455924, 408370, 461656, 
429297, 277609, 264949, 404073, 353142, 277509, 246494, 122663, 
163873, 169455, 188879, 192751, 255511, 185383, 205396, 187415, 
1897500, 1988346, 1854167, 365514, 295724, 262695, 270446, 241531, 
209386, 223774, 255885, 181214, 420567, 482818, 443318, 262886, 
220969, 283763, 229457, 261859, 202067, 226157, 177300, 215454, 
481414, 586233, 383855, 218949, 226852, 244989, 192648, 228195, 
201096)), row.names = c(NA, -60L), class = c("tbl_df", "tbl", 
"data.frame"))

它基本上看起来像这样: 数据框

这是一式三份进行的实验的数据。这意味着,前三行是样本 1,接下来的三行是样本 2,...

所以基本上我需要的是一个函数,只要它找到一个 NA ,它就会从上面的行中获取值。R中有这样的东西吗?我找不到一个。

我试图做的只是添加另一列 - “条件” - 使用 mutate 函数。由于我做的实验进行了五次,我希望向量能被回收。这是我的尝试:

temp %>% mutate(condition = c("UT", "UT", "UT",
                              "Stimuli", "Stimuli","Stimuli",
                              "Inhib1", "Inhib1","Inhib1",
                              "Inhib2", "Inhib2", "Inhib2"))

但由于似乎不可能使用 dplyr::mutate 函数进行矢量回收,所以我也无法做到这一点。

采用第二种方法的优点是它直接添加了我必须在第二步中添加的关键信息。我最初的想法是首先解决示例列问题,然后使用 if 语句添加实验条件...

有谁知道我该如何解决这个问题?

标签: rdataframedplyr

解决方案


假设非NA条目没有减少(如您的示例中所示),您可以这样做 cummax(ifelse(is.na(x), 0, x))x您要以这种方式转换的向量在哪里(看起来像temp$sample您提供的那样)。

逻辑:cummax(),累积最大值函数,返回向量中顺序遇到的最大数。但是,它不能NA很好地处理值。这就是ifelse()呼吁的目的。我们使用ifelse()将每个替换NA0,然后使用cummax()提取先前遇到的最大值。

例子:

x <- c(1, NA, NA, 2, NA, NA, NA, 3, NA, 4)

cummax(ifelse(is.na(x), 0, x))
## [1] 1 1 1 2 2 2 2 3 3 4

推荐阅读