首页 > 解决方案 > 为什么多元回归有这么多假设,而高级机器学习算法却几乎没有?

问题描述

我正在分析一个房地产数据集。虽然所有回归假设都失败了,但我的 XGBoosting 模型却很成功。我错过了什么吗?在这种情况下,XGBoost 只是更好的模型吗?该数据集包含大约 67.000 个观测值和 30 个变量。

标签: pythonr

解决方案


简短的回答:根据我的经验,XGBoost(和其他梯度提升树)通常比大型数据集的线性回归性能更高。

我见过的(正则化)线性回归优于 XGBoost 的情况,我只有很少的数据导致基于树的方法过拟合。如果您有大量观察结果,那么线性回归提供的简单正则化可能会被其他算法发现和利用非线性关系的能力所抵消(obv 相当依赖于数据集)

即使它没有直接回答您的问题,有关差异的详细解释,请参阅:https ://datascience.stackexchange.com/questions/9159/when-to-choose-linear-regression-or-decision-tree -或随机森林回归


推荐阅读