首页 > 解决方案 > 如何在 Apache Spark 的 MLlib (Python) 中为逻辑回归模型分配类权重

问题描述

我正在研究一个具有不平衡数据集的二元分类问题,其中 75% 的数据属于负类(0.0),其余(25%)属于正类(1.0)。

我正在使用 PySpark 数据框,其中每一行都有一个与之关联的标签(0.0 或 1.0),用于指示类。由于班级的不平衡,我想使用适当的班级权重。

从此处列出的文档和示例weightCol中,该行中调用了一个参数
blor = LogisticRegression(weightCol="weight")

这里weightCol提到了的描述。

那么我可以继续创建一个名为 的新列,在标签为何时以及标签为每一行时weight分配一个值,然后如上所述初始化模型?0.751.00.250.0

我只是想检查这是否是在 Spark MLlib 中为不平衡数据集分配权重的正确方法,因为文档并没有说得很清楚

标签: apache-sparkmachine-learningpysparkapache-spark-mllibapache-spark-ml

解决方案


推荐阅读