apache-spark - 如何在 Apache Spark 的 MLlib (Python) 中为逻辑回归模型分配类权重
问题描述
我正在研究一个具有不平衡数据集的二元分类问题,其中 75% 的数据属于负类(0.0
),其余(25%)属于正类(1.0
)。
我正在使用 PySpark 数据框,其中每一行都有一个与之关联的标签(0.0 或 1.0),用于指示类。由于班级的不平衡,我想使用适当的班级权重。
从此处列出的文档和示例weightCol
中,该行中调用了一个参数
blor = LogisticRegression(weightCol="weight")
这里weightCol
提到了的描述。
那么我可以继续创建一个名为 的新列,在标签为何时以及标签为每一行时weight
分配一个值,然后如上所述初始化模型?0.75
1.0
0.25
0.0
我只是想检查这是否是在 Spark MLlib 中为不平衡数据集分配权重的正确方法,因为文档并没有说得很清楚
解决方案
推荐阅读
- esp32 - ttgo lora sx1276 esp32 模块接收垃圾数据
- android - 如何检查 Firebase 实时数据库中的现有用户名
- laravel - 仅当销售状态的值为 2 时如何显示星号
- flutter - Flutter 不可续订订阅
- sapui5 - 错误:未找到 ID 为 container-testing---app - 目标的根视图:工作列表
- android - 为什么 admod 总是在新广告系列中显示就绪状态?
- python - 在python的geoJson文件中提取多边形中心的坐标
- android - Flutter 应用程序在 Android 上运行一段时间后变为空白?
- javascript - 如何使javascript适用于while循环中的每个图像?
- mysql - SQL 数据库 - 更改属性的部分文本内容