python - 为什么多元回归有这么多假设,而高级机器学习算法却几乎没有?
问题描述
我正在分析一个房地产数据集。虽然所有回归假设都失败了,但我的 XGBoosting 模型却很成功。我错过了什么吗?在这种情况下,XGBoost 只是更好的模型吗?该数据集包含大约 67.000 个观测值和 30 个变量。
解决方案
简短的回答:根据我的经验,XGBoost(和其他梯度提升树)通常比大型数据集的线性回归性能更高。
我见过的(正则化)线性回归优于 XGBoost 的情况,我只有很少的数据导致基于树的方法过拟合。如果您有大量观察结果,那么线性回归提供的简单正则化可能会被其他算法发现和利用非线性关系的能力所抵消(obv 相当依赖于数据集)
即使它没有直接回答您的问题,有关差异的详细解释,请参阅:https ://datascience.stackexchange.com/questions/9159/when-to-choose-linear-regression-or-decision-tree -或随机森林回归
推荐阅读
- c# - 调试 Nuget 包、dotnet Pack (.Net CLI) 与 Azure Pipeline Pack 任务
- c++ - c++【钻石配置】如何用继承初始化?
- javascript - JavaScript 函数打印自身而不是返回值
- javascript - JavaScript/MongoDb:useState 初始注册时出现空值问题
- angular - Angular 12:“ NgModule.schemas 必须是一个数组。无法静态确定值。”
- php - 单击提交后如何在隐藏时自动将值放入输入中?
- karate - 如何在空手道框架的 csv 文件中为特定列调用我的 JS 函数?
- c - 我需要以这样的方式配置 CAN 过滤器,即只有 ID 0x80 和 0x200 和 0x300 之间的 ID 通过,所有其他的都不允许通过
- philips-hue - 飞利浦 Hue 授权码
- java - 使用 java 匹配器和模式检索数据