首页 > 解决方案 > 在 SKLearn Logistic Regression 中,class = Balanced 有助于使用不平衡数据运行模型?此选项使用什么方法

问题描述

在阅读了随机欠采样、随机过采样和SMOTE之后,我试图了解 SKlearn 包中的默认实现对逻辑回归或随机森林使用什么方法。我在这里检查了文档

平衡模式使用 y的值自动调整与输入数据中的类频率成反比的权重,如n_samples / (n_classes * np.bincount(y))

我无法在样本多数类或样本少数类下理解它来创建平衡集

标签: pythonscikit-learnrandom-forestlogistic-regressionsampling

解决方案


它们非常不同。

SMOTE 将改变数据并通过过采样使数据集平衡(意味着它将生成与少数类相似的数据以增加其样本。因此创建了数据集。

在 LR 中,它不会使数据集平衡。它不会创建新数据。它只是更多地惩罚了少数族裔的错误分类。所以模型会小心翼翼地照顾那个类。这就是为什么它被称为'class_weight'


推荐阅读