随机森林的原理分析

集成~依赖~单元~投票~拟合~抗噪~生长~袋外

高大并重~噪多

基~串~投~敏~同~方

一、优势互补：

　　RF属于集成学习，集成学习通过构建并结合多个分类器来完成学习任务，常可获得比单一学习器更好的泛化性能

　　一个简单例子：在二分类任务中，假定三个分类器在三个测试样本上的表现如下图，其中√表示分类正确，×表示分类错误，集成学习的结果通过投票法产生，即“少数服从多数”。如下图：

（a）中，每个分类器都只有66.6%的精度，但集成学习却达到了100%；
（b）中，三个分类器没有差别，集成之后性能没有提高；
（c）中，每个分类器的精度都只有33.3%，集成学习的结果变得更糟

　　这个简单地例子显示出：要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，即学习器不能太差，并且要有“多样性”，即学习器间具有差异

二、集成学习分类

　　根据个体学习器之间的依赖关系，集成学习方法大致可分为两大类：

　　个体学习器之间存在强依赖关系，必须串行生成的序列化方法：代表是Boosting

　　个体学习器间不存在强依赖关系，可同时生成的并行化方法：代表是Bagging和“随机森林”（Random Forest）

三、什么是随机森林

　　随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树

　　随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，每棵决策树都是一个分类器（假设现在针对的是分类问题），那么对于一个输入样本，N棵树会有N个分类结果

　　而RF集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。那么成百上千棵就可以叫做森林了

　　举例来说：森林中召开会议，讨论某个动物到底是老鼠还是松鼠，每棵树都要独立地发表自己对这个问题的看法，也就是每棵树都要投票。该动物到底是老鼠还是松鼠，要依据投票情况来确定，获得票数最多的类别就是森林的分类结果。森林中的每棵树都是独立的。

　　森林好理解，那么如何理解随机呢？两个随机

随机有放回的抽样：如果不随机有放回抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的
M维特征，随机抽取k<M个特征进行最优特征的选取：如果每个样本的特征维度为M，指定一个常数m<<M，随机地从M个特征中选取m个特征子集，每次树进行分裂时，从这m个特征中选择最优的

　　每棵树都尽最大程度的生长，并且没有剪枝过程，两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入，使得随机森林不容易陷入过拟合，并且具有很好得抗噪能力（比如：对缺省值不敏感）

　　随机森林分类效果（错误率）与两个因素有关：

森林中任意两棵树的相关性：相关性越大，错误率越大
森林中每棵树的分类能力：每棵树的分类能力越强，整个森林的错误率越低

　　减小特征选择个数m，树的相关性和分类能力也会相应的降低；增大m，两者也会随之增大。所以关键问题是如何选择最优的m（或者是范围），这也是随机森林唯一的一个参数

四、随机森林工作原理解释的一个简单例子

　描述：根据已有的训练集已经生成了对应的随机森林，随机森林如何利用某一个人的年龄（Age）、性别（Gender）、教育情况（Highest Educational Qualification）、工作领域（Industry）以及住宅地（Residence）共5个字段来预测他的收入层次

　收入层次 :

　　Band 1 : Below $40,000

　　Band 2: $40,000 – 150,000

　　Band 3: More than $150,000

　随机森林中每一棵树都可以看做是一棵CART（分类回归树），这里假设森林中有5棵CART树，总特征个数N=5，我们取m=1（这里假设每个CART树对应一个不同的特征）

　CART 1 : Variable Age

　CART 2 : Variable Gender

　CART 3 : Variable Education

　CART 4 : Variable Residence

　CART 5 : Variable Industry

　我们要预测的某个人的信息如下：

　　1. Age : 35 years ; 2. Gender : Male ; 3. Highest Educational Qualification : Diploma holder; 4. Industry : Manufacturing; 5. Residence : Metro

　根据这五棵CART树的分类结果，我们可以针对这个人的信息建立收入层次的分布情况：

　最后，我们得出结论，这个人的收入层次70%是一等，大约24%为二等，6%为三等，所以最终认定该人属于一等收入层次（小于$40,000）

五、简单流程图

六、随机森林的特征重要性原理

　假设有k棵树组成的RF，那么我们就需要k的自动样本集，如上面的流程图；可是我们只有N个样本组成的一个数据集X，而现在需要k个数据集，这里采用的方法是：

　　从N个样本中通过bootstrap有放回的随机抽取N个新的自主样本，组成第一个自动样本集1（对于该样本集：有可能某个样本被抽中多次），构成树分类器1，而该次未被抽到的样本组成了袋外数据

　　自动样本集2-k也通过bootstrap有放回的随机抽取，构成树分类器2-k，每次抽样的数据集，都会用于树的构建，并且都有各自的袋外数据

　小细节：每个袋外数据会对相应的树作预测，评估其误差（称为袋外误差），特征重要性度量步骤如下，对于某个特征x来说

　1）对每一颗决策树，选择相应的袋外数据（out of bag，OOB）计算袋外数据误差，记为errOOB1

　　　所谓袋外数据是指，每次建立决策树时，通过重复抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差

　2）随机对袋外数据OOB所有样本的特征x加入噪声干扰（可以随机改变样本在特征X处的值），再次计算袋外数据误差，记为errOOB2

　3）假设森林中有k棵树，则特征x的重要性$=\sum (errOOB2-errOOB1) / k$

　　　上面公式之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降（即errOOB2上升），说明这个特征对于样本的预测结果有很大影响，进而说明重要程度比较高

七、RF优缺点

　RF的主要优点有：

　　　1）高度并行化，对于大样本（样本数）训练速度有优势

　　　2）由于可以随机选择决策树节点划分特征，这样在样本特征维度很高的时候，仍然能高效的训练模型

　　　3）在训练后，可以给出各个特征对于输出的重要性

　　　4）由于采用了随机采样，训练出的模型的方差小，泛化能力强

　　　5）相对于Boosting系列的Adaboost和GBDT， RF实现比较简单

　　　6）对部分特征缺失不敏感

　　RF的主要缺点有：

　　　1）在某些噪音比较大的样本集上，RF模型容易陷入过拟合

　　　2）取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果

八、RF与GBDT的区别

　1、组成随机森林的树可以是分类树，也可以是回归树；而GBDT只由回归树组成，GBDT的会累加所有树的结果，而这种累加是无法通过分类完成的，因此GBDT的树都是CART回归树，而不是分类树

　2、组成随机森林的树可以并行生成；而GBDT只能是串行生成

　3、对于最终的输出结果而言，随机森林采用多数投票等；而GBDT则是将所有结果累加起来，或者加权累加起来

　4、随机森林对异常值不敏感，GBDT对异常值非常敏感

　5、随机森林对训练集一视同仁，GBDT是基于权值的弱分类器的集成

　6、随机森林是通过减少模型方差提高性能，GBDT是通过减少模型偏差提高性能

随机森林的原理分析

推荐阅读