首页 > 解决方案 > 如何根据两个变量重新采样以派生均匀的类?

问题描述

我有一个大小为(350,标签 0:N1=170,标签 1:N2=1:190)的二进制目标变量 y(例如性别),它是不平衡的(但也可能是平衡的),特征数组 X 的形状(350,100) 和第三个变量“town”,它是分类的,用 0-6 编码。

我现在需要找到一种方法来导出目标“y”(性别的平衡向量,y)的平衡样本,该样本也在变量“城镇”上保持平衡,以便每个男性和每个女性都生活在均匀平衡的城镇中(这样镇 1:45,镇 2:45,镇 3:45,...)。

我使用了 sklearn 和 imblearn - 一个变量很容易,因为这样我就可以使用 imblearn 提供的开箱即用的采样技术,并得出均匀的班级规模。但当然,它们在第二个变量方面并不平衡。

可视化的虚拟示例:

Sex  X1   X2  Town
1   2.10 0.30  1
0   1.10 1.12  8
1   0.45 1.19  4
1   1.90 2.01  2
1   0.20 2.25  1
0   0.15 1.12  0

任何想法都受到高度赞赏..

标签: pythonmachine-learningoversampling

解决方案


推荐阅读