python - 在 SKLearn Logistic Regression 中,class = Balanced 有助于使用不平衡数据运行模型?此选项使用什么方法
问题描述
在阅读了随机欠采样、随机过采样和SMOTE之后,我试图了解 SKlearn 包中的默认实现对逻辑回归或随机森林使用什么方法。我在这里检查了文档
平衡模式使用 y的值自动调整与输入数据中的类频率成反比的权重,如n_samples / (n_classes * np.bincount(y))
我无法在样本多数类或样本少数类下理解它来创建平衡集
解决方案
它们非常不同。
SMOTE 将改变数据并通过过采样使数据集平衡(意味着它将生成与少数类相似的数据以增加其样本。因此创建了新数据集。
在 LR 中,它不会使数据集平衡。它不会创建新数据。它只是更多地惩罚了少数族裔的错误分类。所以模型会小心翼翼地照顾那个类。这就是为什么它被称为'class_weight'
。
推荐阅读
- javascript - 请求方法在节点 js 中显示 403 错误
- elasticsearch - Jest 客户端 ElasticSearch 别名
- linux - 将 Docker 转换为 Singularity 时遇到问题:Singularity 中的“功能未实现”,但在 Docker 中工作正常
- r - 一列的一部分是否存在于另一列中?R
- ios - 是否可以使用 SCNAudioPlayer() 进行音频电平测量
- python - 如何在python中找到小说中所需的单词?
- javascript - ExtJS Classic:为窗口的 x/y/width/height 设置动画时,标题未在指定的最终位置结束
- java - 在导航栏中更改片段时进度消失
- python - sklearn knn分类器的pred()函数可以将scipy稀疏矩阵作为输入吗?
- spring - SpringBoot ReloadableResourceBundleMessageSource 找不到属性文件