首页 > 解决方案 > 不平衡数据的特征工程

问题描述

我正在针对分类问题训练机器学习模型。我的数据集是10000个观测值,包含37个分类类别。但是数据不平衡,我有一些类有100 个观察值,而其他一些类有30004000 个观察值。

在搜索了如何对此类数据进行一些特征工程以提高算法的性能之后。我找到了2个解决方案:

根据第一个解决方案:我有很多类有一些观察,所以它需要更多的数据和很长时间。所以这对我来说很难!
并且通过应用第二个:我认为所有类都会有一些观察结果,并且数据会非常小,因此算法很难概括。

那么我可以尝试解决这个问题的另一种解决方案吗?

标签: machine-learningfeature-engineeringimbalanced-data

解决方案


您可以更改损失函数中的权重,以便在优化时较小的类具有更大的重要性。例如,在 keras 中,您可以使用weighted_cross_entropy_with_logits


推荐阅读