r - 在 R 中定义 n 的平衡样本
问题描述
我有一个用于情绪分析的不平衡数据集,大约有 65000 个观察值(约 60000 个正面和约 5000 个负面)。这个数据集应该是平衡的,这样我就有相同数量的正面和负面观察来训练我的机器学习算法。
包caret
和函数downSample
帮助我获得约 5000 个负面和约 5000 个正面观察(下采样到少数类)。但我喜欢恰好有 2500 个随机选择的正面观察和 2500 个随机选择的负面观察。有谁知道如何做到这一点?
解决方案
你只想要2500个??
require(tidyverse)
df <- data.frame(class = c(rep('POS',60000), rep('NEG',5000)), random = runif(65000))
result <- df %>%
group_by(class) %>%
sample_n(2500)
table(result$class)
推荐阅读
- javascript - 每次我的 JavaScript 文件从其中提取代码时,如何使变量“刷新”自身?
- javascript - Nodejs保存数据离线地址正在使用中
- javascript - 错误:[ERR_HTTP_HEADERS_SENT]:在将标头发送到客户端后无法设置标头,获取错误
- python - matplotlib fill_between 具有离散的 x 值以及参数产生间隙的位置
- mysql - 如何根据最大时间戳提取不同的行?
- python - 在 Jetson Nano Ubuntu 18 上安装 PyTorch
- django - Django Channels App Websocket连接失败
- basic - 有没有办法在 Pick Basic 中使用更现代的语言?准确地说是D3
- python - 从 (2,60) numpy 数组中删除特定数字?
- scala - 将字符串值与 spark DataFrame 列进行比较并根据条件更新字符串