首页 > 解决方案 > 将数字目标转换为二进制有用吗?

问题描述

我正在尝试解决目标变量为数字的 ML 问题,比如说一个城市的污染水平。但客户对预测污染物的实际数量不感兴趣,他们只是想知道基于商定阈值的污染水平是高还是低。(如果 PM2.5 水平高于 200,则为高,否则为低)。

我应该将其视为回归问题并将数字 PM2.5 水平作为目标,还是作为分类问题,根据阈值制作高/低污染水平的另一个特征并使用该二元变量作为目标?两者的优点和缺点是什么?如果有的话,它会对准确性产生什么影响?

标签: machine-learning

解决方案


如果您的客户对了解实际值不感兴趣,我建议您使用分类模型。

您可以使用这种方法将目标变量转换为二进制值并遵循分类路径。

分类将有更高的准确性,因为模型更多地集中在分类边界上,而回归模型可能会偏向于尝试正确预测异常值/噪声数据点!


推荐阅读