首页 > 解决方案 > 当所有数据都是数字时,如何计算 CART 算法的基尼指数?

问题描述

我对分类算法 CART 有一些问题,

我的数据看起来像这样,问题是当所有数据都是数字时,我如何使用 GINI 指数计算“分割的优度”?

数值数据集

标签: data-sciencedata-miningcart

解决方案


基尼指数适用于分类数据,它衡量一个特定变量在随机选择时被错误分类的程度或概率。因此,对于一棵树,我们选择一个基尼指数最小的特征。

现在,在您的情况下,我们有数字数据,因此拆分的特征选择是使用高于阈值的元素完成的。

为了计算阈值,将数值特征按升序排序,并尝试将每个值作为阈值,并计算每个值的信息增益作为阈值。具有最大信息增益的阈值将是您的阈值。


推荐阅读