首页 > 解决方案 > 如何根据列的范围(即<15,15-30等...)创建因子变量

问题描述

我正在根据 RStudio 中的“nycflights13”数据为学校做作业,我需要创建一个因子变量(称为延迟级别),将 dep_delay 分为 4 个类别(<15 分钟、15 - 30 分钟、30 - 60 分钟、<60 min) 基于我已经创建的另一个过滤器变量(如下所示),称为 flight1,并将这个新变量称为 flight2。

在我这样做之后,我需要使用 group_by w/ origin 和 delaylevel 根据 flt2 找出延迟 15 分钟或更长时间的比例,其中我必须“消除丢失的延迟级别并汇总函数以进行计数”。(我相信我知道如何做这部分,但在第一部分遇到问题)

任何帮助,将不胜感激。

需要:tidyverse 包和 nycflights13 包(航班)

标签: r

解决方案


您需要使用 break 参数的上限和下限,因为最小和最大 break 之外的任何内容都会被强制为 NA。如果你想有更好看的因子水平,你可以使用labels参数

cut(fit1, breaks=c(0,15,30,60,1000))

推荐阅读