首页 > 解决方案 > dplyr摘要r中的NA变量

问题描述

我正在尝试创建一个表,其中包括counts从两组 (AB) 中提取的变量的相对频率 ( ),这些变量属于预先给定的时间范围内intervals。我的问题是,如果一行以 0 秒开始(请参阅 参考资料start_sec),则变量不在 0-5 秒内,interval而是标记为NA(请参阅输出)。我希望将这些案例包括在上述区间内。

这是一个虚拟示例:

变量

group <-   c("A","A","A","A","A","A","B","B","B")
person <-  c("p1","p1","p1","p3","p2","p2","p1","p1","p2")
start_sec <- c(0,10.7,11.8,3.9,7.4,12.1,0,3.3,0)
dur_sec <- c(7.1,8.2,9.3,10.4,11.5,12.6,13.7,14.8,15.9)

数据框

df <-  data.frame(group,person,start_sec,dur_sec)
df

数据框

管道

df %>%
group_by(group,person, interval=cut(start_sec, breaks=c(0,5,10,15))) %>%
summarise(counts= n(),sum_dur_sec=sum(dur_sec))

输出(到目前为止)

输出

提前感谢您的所有评论和反馈!

标签: rdplyrpipelinefrequencycut

解决方案


推荐阅读