r - 如何在R中找到最后一列的值(对于每一行)?
问题描述
假设有一个具有多个测量值的数据框,其中缺少一些测量值。如果缺少该值,则所有后续测量也将丢失。如何找到最后的测量值?
df <- data.frame(id = c(1, 2, 3, 4), m_1 = c('a', 'b', 'c', 'd'), m_2 = c('e', NA, 'g', 'h'), m_3 = c('i', NA, NA, 'l'))
df
id m_1 m_2 m_3
[1] 1 a e i
[2] 2 b <NA> <NA>
[3] 3 c g <NA>
[4] 4 d h l
我想得到两个选项。
df
id m_1 m_2 m_3 m
[1] 1 a e i m_3
[2] 2 b <NA> <NA> m_1
[3] 3 c g <NA> m_2
[4] 4 d h l m_3
df
id m_1 m_2 m_3 m
[1] 1 a e i i
[2] 2 b <NA> <NA> b
[3] 3 c g <NA> g
[4] 4 d h l l
我试图mutate
与which
,colnames
和混合is.na
,但没有成功。
解决方案
一个选项是max.col
从base R
获取有非 NA 元素的每一行的列索引。ties.method
可以"random"
是"first"
或"last"
。_ 因为我们想要last
非 NA,所以指定"last"
为ties.method
df$m <- names(df)[-1][max.col(!is.na(df[-1]), 'last')]
df$m
#[1] "m_3" "m_1" "m_2" "m_3"
或者对于第二个选项,cbind
使用行索引并提取元素
df[-1][cbind(seq_len(nrow(df)), max.col(!is.na(df[-1]), 'last'))]
#[1] "i" "b" "g" "l"
或者这可以用tidyverse
library(dplyr)
df %>%
rowwise %>%
mutate(m = {tmp <- c_across(starts_with('m'))
tail(na.omit(tmp), 1)}) %>%
ungroup
或者,如果我们想同时获得两者,则可以选择重塑为“长”格式
library(tidyr)
df %>%
pivot_longer(cols = starts_with('m'), values_drop_na = TRUE,
names_to = "m_name", values_to = 'm_value') %>%
group_by(id) %>%
slice_tail(n = 1)%>%
ungroup %>%
right_join(df) %>%
select(names(df), everything())
-输出
# A tibble: 4 x 6
# id m_1 m_2 m_3 m_name m_value
# <dbl> <chr> <chr> <chr> <chr> <chr>
#1 1 a e i m_3 i
#2 2 b <NA> <NA> m_1 b
#3 3 c g <NA> m_2 g
#4 4 d h l m_3 l
推荐阅读
- r - 用 position_dodge 绘制 geom_segment
- typescript - 在环境上下文中不允许使用语句
- kubernetes - K8s 挂载持久卷失败,在 docker-desktop 上“等待条件超时”
- c# - 尝试加载已加载的 AssetReference
- docker - Dockerize nestjs 微服务应用程序
- reactjs - 在 React 中使用 Context 和 Reducers 实现 Redux 功能无法正常工作
- java - 使用 Spring Data Elasticsearch (reactive) 连接到 ES 导致错误主机无法访问
- javascript - 为什么我从我网站上的一个页面获得另一个页面的 404,而从另一个页面请求的页面显示得很好
- python - Python Turtle Tk:如何最大化窗口?
- reactjs - Vite React 应用程序:Docker 容器中的 esbuild 错误