首页 > 解决方案 > 使用不平衡学习过采样后仅检索重采样实例的索引?

问题描述

对于数据不平衡的二进制文本分类问题,我使用了不平衡学习库的函数RandomOverSampler来平衡类。

现在,我只想从原始数据中检索过采样(复制)的实例。例如,如果“item_1”是原始数据,第 2 到 4 项是“item_1”的副本,我只需要“item_2”、“item_3”、“item_4”的索引进行进一步处理,而省略“项目_1”。

  1. item_1
  2. item_2
  3. item_3
  4. item_4

这是我的代码:

from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=42)

X_listed = []
for eachTrainInstance in X_train:
    X_listed.append([eachTrainInstance])

X_tr_resampled, y_tr_resampled = ros.fit_sample(X_listed, y_train)

标签: nlptext-classificationindicesoversamplingimbalanced-data

解决方案


似乎所有过采样的实例(当然还有它们相应的索引)都在经过过采样的原始数据的末尾连接起来。

oversampled_instances = y_tr_resampled[len(y_train):]

推荐阅读