首页 > 技术文章 > 机器学习之决策树(学习笔记)

chengwentan 2019-11-06 16:01 原文

1. 决策树(decision tree):是一种基本的分类与回归方法,分类树对离散变量做决策树,回归树对连续变量做决策树

在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

 2. 决策树的基本思想是以信息熵为变量构造一棵熵值下降最快的树,到叶子节点处的熵值为0.

3. 信息熵:用来度量信源X整体的不确定性的

                 

 

     

 

4. 条件熵:H(Y/X)表示在已知随机变量X的条件下随机变量Y的不确定性

   

 

5. 信息增益:

         

 

6. 信息增益率:

 

 7. Gini系数:

 

8.构建决策树的主要算法:

        1.ID.3:使用信息增益来进行特征选择

        2.C4.5:使用信息增益率来进行特征选择

        3.CART:使用Gini系数来进行特征选择

9.几种属性选择度量的对比:

    信息增益:偏向于多属性。一个属性的信息增益越大,表明该属性减少样本的熵的能力更强,这个属性使得数据由不确定性变成确定性的能力更强。

    信息增益率:引入了分裂信息,取值数目多的属性分裂信息也会变大,将增益除以分裂信息,再加上一些额外操作,可以有效的解决信息增益过大的问题。增益率倾向于不平衡的分裂,使得其中一个自己比其他子集要小的很多。

    Gini系数:偏向于多值属性,当类数目较大时,计算比较复杂,它倾向于大小相等的分区和纯度。

10.根据银行贷款数据如何去划分是否能得到贷款?

 

 

 

 11.

 

 12.

 

 13.使用graphviz进行dot转png后中文乱码

   

 

   解决方案:

 

       编辑fontname=FangSong,即可!

14.

 

 

 

  

 

     

 

 

推荐阅读