首页 > 技术文章 > 决策树3-cart剪枝

yuyingblogs 2021-09-23 19:08 原文

1 为什么要剪枝

1.1 图形描述

  • 横轴表示在决策树创建过程中树的结点总数
  • 纵轴表示决策树的预测精度
  • 实线显示的是决策树在训练集上的精度
  • 虚线显示的则是在一个独立的测试集上测量出来的精度
  • 随着树的增长,在训练样集上的精度是单调上升的, 然而在独立的测试样例上测出的精度先上升后下降

1.2 出现这种情况的原因

  • 原因1:噪声、样本冲突,即错误的样本数据
  • 原因2:特征即属性不能完全作为分类标准
  • 原因3:巧合的规律性,数据量不够大

2 常用的减枝方法

2.1 预剪枝

  • 在构建树的过程中,同时剪枝
    • 限制节点最小样本数
    • 指定数据高度
    • 指定熵值的最小值

2.2 后剪枝

  • 后剪枝,在已生成过拟合决策树上进行剪枝,可以得到简化版的剪枝决策树。

推荐阅读