首页 > 解决方案 > 如何比较不同线性回归模型的有效性

问题描述

我有一个数据框,其中包含目标列和其他列之间或多或少的三个显着相关性(来自 sklearn 的 LinarRegressionModel.coef_ 显示 57、97 和 79)。而且我不知道要选择什么确切的模型:我应该只使用最相关的列进行回归还是对所有三个预测变量使用回归。有没有办法比较模型的有效性?抱歉,我对数据分析很陌生,我无法用谷歌搜索任何工具来完成这项任务

标签: pandasscikit-learnlinear-regression

解决方案


首先,你必须知道,当我们选择最好的模型来应用新数据时,我们会选择最好的模型来拟合out of sample数据,这是训练过程中可能不存在的那种样本,毕竟,您想预测新的概率或案例。在您的情况下,预测一个新数字。

那么,我们该怎么做呢?好吧,最好的方法是使用可以帮助我们选择哪种模型更适合我们的数据集的指标。

回归的指标有很多种:

  • MAE:平均绝对误差是误差绝对值的平均值。这是最容易理解的指标,因为它只是平均误差。
  • MSE:均方误差是均方误差的平均值。它比平均绝对误差更受欢迎,因为重点更倾向于大误差。
  • RMSE:根表示平方误差是均方误差的平方根。这是最受欢迎的评估指标之一,因为根意味着平方误差可以在与响应向量或 y 单位相同的单位中进行解释,从而可以轻松关联其信息。
  • RAE:相对绝对误差,也称为平方的残差和,其中 y bar 是 y 的平均值,取总绝对误差并通过除以简单预测器的总绝对误差对其进行归一化。

您可以使用其中任何一个,但我强烈建议使用MSERMSE


推荐阅读