首页 > 技术文章 > B-经济学-基尼指数

abdm-989 2020-12-10 23:12 原文


更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/p/11686958.html

基尼指数

一、基尼指数简介

基尼指数(gini coefficient)代表了模型的不纯度,基尼指数越小,则不纯度越低;基尼指数越大,则不纯度越高,这和信息增益比是相反的。

假设一个训练集有K个类别,样本属于第k个类别的概率为pk,则它的基尼指数为

G(p)=k=1Kpk(1pk)=1k=1Kpk2

如果是二分类问题,其中一个分类的概率为p,则它的基尼指数为

G(p)=2p(1p)

对于某一个训练集D,假设训练集有K个类别,并且第k个类别有Ck个样本,则D的基尼指数为

G(D)=1k=1K(|Ck||D|)2

对于某一训练集D,如果根据特征T的某个特征值是否等于tD分成两个子集D1D2

D1={(x,y)D|A(x)=t},D2=DD1

D的基尼指数为

G(D,A)=(|D1||D|)G(D1)+(|D2||D|)G(D2)

基尼指数G(D)表示D的不确定性,基尼指数G(D,A)表示经过T=t分割后D的不确定性。基尼指数越大,样本集合的不确定性也就越大,不纯度越高。

推荐阅读