首页 > 解决方案 > 我可以使用 Sample.split 函数在基于某些字段进行过滤时拆分数据吗?

问题描述

我正在使用 caTools 包中的 R 中的 sample.split 函数将我的数据拆分为训练和测试数据以进行交叉验证。但是,我需要以测试数据为目标的方式拆分我的数据。这是飞行风险模型的一部分,我需要我的测试数据针对某些等级和位置,而不仅仅是数据的随机拆分,只保留留下和离开之间的比率。

spl <- sample.split(data$Voluntary, 3/4)

训练 <- 数据[spl,]

测试 <- 数据[!spl,]

这段代码将我的数据分成 75% 的训练和 25% 的测试。但我希望测试只包括 data$grade = "G4"、"G5" 和 "G6" 以及 data$location = "Houston"。有没有办法将它构建到我的代码中?

标签: rcross-validation

解决方案


推荐阅读