r - 为什么 RMSE 值在较小的树上增加(RPART)
问题描述
目标:我想了解为什么RMSE
在一棵较小的树上会增加。
背景:我正在学习rpart
算法。我有一些数据,我把它分成三个部分(训练、验证、测试)。我正在使用这个 Kaggle 数据集。
我适合模型:
homes_model <- rpart(formula = SalePrice ~ .,
data = homes_train,
method = "anova")
使用此基础树:
然后,我计算了测试数据的 RMSE:
pred_base <- predict(object=homes_model,
newdata = homes_test)
library(Metrics)
rmse_base <- rmse(actual=homes_test$SalePrice, #Actual values
predicted = pred_base )
这rmse_base
第一棵树的 是:46894
。
然后,我看着cptable
按照最低xerror+xstd
规则挑选最好的树。
CP nsplit rel error xerror xstd
1 0.446 0 1.00 1.00 0.096
2 0.114 1 0.55 0.56 0.054
3 0.078 2 0.44 0.48 0.055
4 0.035 3 0.36 0.41 0.037
5 0.021 4 0.33 0.40 0.046
6 0.018 5 0.31 0.41 0.047
7 0.017 6 0.29 0.39 0.045
8 0.017 7 0.27 0.39 0.045
9 0.013 8 0.25 0.37 0.043
10 0.010 9 0.24 0.35 0.043
我选择了有 7 个分裂的树:
opt_index <- 7
cp_opt <- homes_model$cptable[opt_index, "CP"]
# Prune the model (to optimized cp value)
homes_model_opt <- prune(tree = homes_model,
cp = cp_opt)
我绘制了它:
然后我RMSE
在测试数据的这个较小的树上再次计算:
#Computing predicted values
pred_opt <- predict(object=homes_model_opt,
newdata = homes_test)
#Compute RMSE
rmse_opt <- rmse(actual=homes_test$SalePrice, #Actual values
predicted = pred_opt) #Predicted values
它从 上升46894
到49964
。为什么?较小的树不应该更好地适应看不见的数据吗?
解决方案
在足够大以表示数据变化的树与不至于过拟合的树之间始终存在平衡。更大的树有时会产生更好的结果的原因是它们更精细地划分数据,因此代表细微差别。较小的树有时会产生更好的结果的原因是过度拟合的问题较少。但是如果最小的树总是最好的,那为什么不只使用一个节点呢?仅使用根节点会使用平均值来估计值 - 不太可能真的准确。必须平衡这两种相互冲突的力量,才能获得最好的结果。
推荐阅读
- azure - 无法识别 Get-AzsHealthReport
- class - 如何强制 Dart/Flutter 重用具有相同属性的相同类
- swift - 如何检查特定日期在两个日期之间发生了多少次?
- c++ - 赋值运算符(+= 和 =)之间的区别
- android - WorkManager 将失败的作业保留多长时间?
- postgresql - 幂等插入,如果值是新的,则引发错误
- python - 在数据框单元格中搜索关键字
- google-sheets - 从另一个日期范围(项目时间)存在于另一个日期范围(月)内的另一个工作表中复制数据的方法
- postgresql - 在postgres中首先删除外部表和主键表
- php - 使用 jquery 单击按钮获取公司详细信息