nlp - 使用不平衡学习过采样后仅检索重采样实例的索引?
问题描述
对于数据不平衡的二进制文本分类问题,我使用了不平衡学习库的函数RandomOverSampler
来平衡类。
现在,我只想从原始数据中检索过采样(复制)的实例。例如,如果“item_1”是原始数据,第 2 到 4 项是“item_1”的副本,我只需要“item_2”、“item_3”、“item_4”的索引进行进一步处理,而省略“项目_1”。
- item_1
- item_2
- item_3
- item_4
这是我的代码:
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=42)
X_listed = []
for eachTrainInstance in X_train:
X_listed.append([eachTrainInstance])
X_tr_resampled, y_tr_resampled = ros.fit_sample(X_listed, y_train)
解决方案
似乎所有过采样的实例(当然还有它们相应的索引)都在经过过采样的原始数据的末尾连接起来。
oversampled_instances = y_tr_resampled[len(y_train):]
推荐阅读
- r - 如何从 R 调用 Fortran 程序
- java - Java 连接到 oracle 数据库需要很长时间
- css - 有没有办法让 calc 函数与 Sass 中的 * 运算符一起工作?
- python - Django如何显示用户输入的值
- java - 带有 Mongodb 的 log4j2 问题日志记录可抛出消息
- python-3.x - 使用石墨烯,与客户端发送graphql请求时,如何拦截+内省post数据?
- python - 如何在python中进行没有堆栈溢出的递归?
- python - 如何解决以下错误 - TypeError: unsupported operand type(s) for -: 'int' and 'str'
- discord.py - 将用户名设置为参数
- mysql - Knex - MySQL 如何在单个 JavaScript 字符串中执行多个语句?