决策树与随机森林

信息熵

熵原本是物理学中的⼀个定义，后来⾹农将其引申到了信息论领域，⽤来表示信息量的⼤⼩。
信息量越⼤（分类越不“纯净”），对应的熵值就越⼤，反之亦然。

信息增益率

决策树中的ID3算法使⽤信息增益指标实现根节点或中间节点的字段选择，但是该指标存在⼀个⾮
常明显的缺点，即信息增益会偏向于取值较多的字段。
为了克服信息增益指标的缺点，提出了信息增益率的概念，它的思想很简单，就是在信息增益的
基础上进⾏相应的惩罚。

基尼指数

决策树中的C4.5算法使⽤信息增益率指标实现根节点或中间节点的字段选择，但该算法与ID3算法⼀
致，都只能针对离散型因变量进⾏分类，对于连续型的因变量就显得束⼿⽆策了。
为了能够让决策树预测连续型的因变量，Breiman等⼈在1984年提出了CART算法，该算法也称为分
类回归树，它所使⽤的字段选择指标是基尼指数。

决策树模型

DecisionTreeClassifier(criterion='gini', splitter='best',
max_depth=None,min_samples_split=2,
min_samples_leaf=1,max_leaf_nodes=None,
class_weight=None)

criterion：⽤于指定选择节点字段的评价指标，对于分类决策树，默认为'gini'，表示采⽤基尼指数选
择节点的最佳分割字段；对于回归决策树，默认为'mse'，表示使⽤均⽅误差选择节点的最佳分割字段
splitter：⽤于指定节点中的分割点选择⽅法，默认为'best'，表示从所有的分割点中选择最佳分割点；
如果指定为'random'，则表示随机选择分割点
max_depth：⽤于指定决策树的最⼤深度，默认为None，表示树的⽣⻓过程中对深度不做任何限制
min_samples_split：⽤于指定根节点或中间节点能够继续分割的最⼩样本量， 默认为2
min_samples_leaf：⽤于指定叶节点的最⼩样本量，默认为1
max_leaf_nodes：⽤于指定最⼤的叶节点个数，默认为None，表示对叶节点个数不做任何限制
class_weight：⽤于指定因变量中类别之间的权重，默认为None，表示每个类别的权重都相等；如果
为balanced，则表示类别权重与原始样本中类别的⽐例成反⽐；还可以通过字典传递类别之间的权重
差异，其形式为{class_label:weight}

随机森林的思想

随机森林建立了多个决策树，并将它们合并在一起以获得更准确和稳定的预测。
随机森林的一大优势在于它既可用于分类，也可用于回归问题，这两类问题恰
好构成了当前的大多数机器学习系统所需要面对的。

随机森林模型

RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None,
min_samples_split=2, min_samples_leaf=1,
max_leaf_nodes=None, bootstrap=True, class_weight=None)

n_estimators：⽤于指定随机森林所包含的决策树个数
criterion：⽤于指定每棵决策树节点的分割字段所使⽤的度量标准，⽤于分类的随机森林，默认的
criterion值为'gini'；⽤于回归的随机森林，默认的criterion值为'mse'
max_depth：⽤于指定每棵决策树的最⼤深度，默认不限制树的⽣⻓深度
min_samples_split：⽤于指定每棵决策树根节点或中间节点能够继续分割的最⼩样本量， 默认为2
min_samples_leaf：⽤于指定每棵决策树叶节点的最⼩样本量，默认为1
max_leaf_nodes：⽤于指定每棵决策树最⼤的叶节点个数，默认为None，表示对叶节点个数不做任
何限制
bootstrap：bool类型参数，是否对原始数据集进⾏bootstrap抽样，⽤于⼦树的构建，默认为True
class_weight：⽤于指定因变量中类别之间的权重，默认为None，表示每个类别的权重都相等

代码演示

# 导入第三方模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import model_selection
from sklearn import linear_model

# 读⼊数据
Titanic = pd.read_csv(r'Titanic.csv')
# 删除⽆意义的变量，并检查剩余变量是否含有缺失值
Titanic.drop(['PassengerId','Name','Ticket','Cabin'], axis = 1, inplace = True)
Titanic.isnull().sum(axis = 0)
# 对Sex分组，⽤各组乘客的平均年龄填充各组中的缺失年龄
fillna_Titanic = []
for i in Titanic.Sex.unique():
    update = Titanic.loc[Titanic.Sex == i,].fillna(value = {'Age': Titanic.Age[Titanic.Sex == i].mean()}, inplace
    = False)
    fillna_Titanic.append(update)
Titanic = pd.concat(fillna_Titanic)
# 使⽤Embarked变量的众数填充缺失值
Titanic.fillna(value = {'Embarked':Titanic.Embarked.mode()[0]}, inplace=True)

# 将数值型的Pclass转换为类别型，否则⽆法对其哑变量处理
Titanic.Pclass = Titanic.Pclass.astype('category')
# 哑变量处理
dummy = pd.get_dummies(Titanic[['Sex','Embarked','Pclass']])
# ⽔平合并Titanic数据集和哑变量的数据集
Titanic = pd.concat([Titanic,dummy], axis = 1)
# 删除原始的Sex、Embarked和Pclass变量
Titanic.drop(['Sex','Embarked','Pclass'], inplace=True, axis = 1)
# 取出所有⾃变量名称
predictors = Titanic.columns[1:]

# 将数据集拆分为训练集和测试集，且测试集的⽐例为25%
X_train, X_test, y_train, y_test = model_selection.train_test_split(Titanic[predictors], Titanic.Survived,
test_size = 0.25, random_state = 1234)

# 导入第三方模块
from sklearn.model_selection import GridSearchCV
from sklearn import tree
# 预设各参数的不同选项值
max_depth = [2,3,4,5,6]
min_samples_split = [2,4,6,8]
min_samples_leaf = [2,4,8,10,12]
# 将各参数值以字典形式组织起来
parameters = {'max_depth':max_depth, 'min_samples_split':min_samples_split,
'min_samples_leaf':min_samples_leaf}
# ⽹格搜索法，测试不同的参数值
grid_dtcateg = GridSearchCV(estimator = tree.DecisionTreeClassifier(), param_grid = parameters, cv=10)
# 模型拟合
grid_dtcateg.fit(X_train, y_train)
# 返回最佳组合的参数值
grid_dtcateg.best_params_

'''分类决策树'''
# 导入第三方模块
from  sklearn import metrics
# 构建分类决策树
CART_Class = tree.DecisionTreeClassifier(max_depth=3,min_samples_leaf=4,min_samples_split=2)
# 模型拟合
decision_tree = CART_Class.fit(X_train,y_train)
# 模型在测试集上的预测
pred = CART_Class.predict(X_test)
# 模型的准确率
print('模型在测试集的预测准确率：\n',metrics.accuracy_score(y_test,pred))
print('模型在训练集的预测准确率：\n',
metrics.accuracy_score(y_train,CART_Class.predict(X_train)))

'''随机森林'''
# 导入第三方包
from sklearn import ensemble
# 构建随机森林
RF_class = ensemble.RandomForestClassifier(n_estimators=200, random_state=1234)
# 随机森林的拟合
RF_class.fit(X_train, y_train)
# 模型在测试集上的预测
RFclass_pred = RF_class.predict(X_test)
# 模型的准确率
print('模型在测试集的预测准确率：\n',metrics.accuracy_score(y_test, RFclass_pred))

'''挑出重要因素'''
# 变量的重要性程度值
importance = RF_class.feature_importances_
# 构建含序列⽤于绘图
Impt_Series = pd.Series(importance, index = X_train.columns)
# 对序列排序绘图
Impt_Series.sort_values(ascending = True).plot('barh')
# 显示图形
plt.show()

决策树与随机森林

信息熵

信息增益率

基尼指数

决策树模型

随机森林的思想

随机森林模型

代码演示

推荐阅读