machine-learning - xgboost 回归树的叶值与预测有何关系
问题描述
似乎每棵树的相应叶值之和不等于预测。这是一个示例代码:
X = pd.DataFrame({'x': np.linspace(-10, 10, 10)})
y = X['x'] * 2
model = xgb.XGBRegressor(booster='gbtree', tree_method='exact', n_estimators=100, max_depth=1).fit(X, y)
Xtest = pd.DataFrame({'x': np.linspace(-20, 20, 101)})
Ytest = model.predict(Xtest)
plt.plot(X['x'], y, 'b.-')
plt.plot(Xtest['x'], Ytest, 'r.')
树转储内容如下:
model.get_booster().get_dump()[:2]
['0:[x<0] yes=1,no=2,missing=1\n\t1:leaf=-2.90277791\n\t2:leaf=2.65277767\n',
'0:[x<2.22222233] yes=1,no=2,missing=1\n\t1:leaf=-1.90595233\n\t2:leaf=2.44333339\n']
如果我只用一棵树做预测:
Ytest2 = model.predict(Xtest, ntree_limit=1)
plt.plot(XX1['x'], Ytest2, '.')
np.unique(Ytest2) # array([-2.4028, 3.1528], dtype=float32)
显然,Ytest2
的唯一值不对应于第一棵树的叶值,即-2.90277791
和2.65277767
,尽管观察到的分裂点正好在 0 处。
- 叶值与预测有何关系?
- 如果输入是对称的,为什么第一棵树中的叶值不对称?
解决方案
在拟合第一棵树之前,xgboost 会进行初始预测。这由参数 控制base_score
,默认为 0.5。确实,-2.902777 + 0.5 ~=-2.4028
和2.652777 + 0.5 ~= 3.1528
。
这也解释了您的第二个问题:与初始预测的差异不是对称的。如果你设置learning_rate=1
了,你可能会在一轮后得到对称的预测,或者你可以设置base_score=0
.
推荐阅读
- javascript - 使用 ENTER 移动 jQuery 自动完成小部件而不是鼠标按下和鼠标按下
- selenium - 使用 Apache POI 以特定格式读取 excel 'Formula Date cell' 值(excel 具有 STRING FORMULA 和 INT FORMULA 类型)
- javascript - 无法从 node.js 中对象中存在的键访问值
- lambda - Lambda 演算列表追加
- php - 当来自第 3 方 IFRAME 时,Chrome 不保留我的 _SESSION 变量,但在直接访问时完美运行
- javascript - ECONNREFUSED 127.0.0.1:443
- vbscript - 启动计划任务时,HTA vbs 脚本无法执行程序
- javascript - javascript在ajax请求中提交表单未提交
- pyspark - 有没有加入许多(1000+)DF 的有效方法?
- node.js - 在Node Js中将Mysql结果推送到数组