pandas - 如何比较不同线性回归模型的有效性
问题描述
我有一个数据框,其中包含目标列和其他列之间或多或少的三个显着相关性(来自 sklearn 的 LinarRegressionModel.coef_ 显示 57、97 和 79)。而且我不知道要选择什么确切的模型:我应该只使用最相关的列进行回归还是对所有三个预测变量使用回归。有没有办法比较模型的有效性?抱歉,我对数据分析很陌生,我无法用谷歌搜索任何工具来完成这项任务
解决方案
首先,你必须知道,当我们选择最好的模型来应用新数据时,我们会选择最好的模型来拟合out of sample
数据,这是训练过程中可能不存在的那种样本,毕竟,您想预测新的概率或案例。在您的情况下,预测一个新数字。
那么,我们该怎么做呢?好吧,最好的方法是使用可以帮助我们选择哪种模型更适合我们的数据集的指标。
回归的指标有很多种:
- MAE:平均绝对误差是误差绝对值的平均值。这是最容易理解的指标,因为它只是平均误差。
- MSE:均方误差是均方误差的平均值。它比平均绝对误差更受欢迎,因为重点更倾向于大误差。
- RMSE:根表示平方误差是均方误差的平方根。这是最受欢迎的评估指标之一,因为根意味着平方误差可以在与响应向量或 y 单位相同的单位中进行解释,从而可以轻松关联其信息。
- RAE:相对绝对误差,也称为平方的残差和,其中 y bar 是 y 的平均值,取总绝对误差并通过除以简单预测器的总绝对误差对其进行归一化。
您可以使用其中任何一个,但我强烈建议使用MSE和RMSE。
推荐阅读
- javascript - 联系表格不向电子邮件发送数据
- google-analytics - 为什么当我选择不同的日期时,来自 Google 分析查询资源管理器的数据会发生变化?
- sql-server - Microsoft Flow:SQL 目标的字符串到 GUID 转换
- android - Activity已经在AndroidManifest.xml中注册了,但是Monkey运行时会出现ActivityNotFoundException
- apache-spark - spark 结构化流 2.3.0 | 阅读 Avro Kafka 主题 | 未找到必需的属性“值”;
- c# - 如何在 Database.EnsureCreated() EF Xamarin.Forms 之后使用 Database.Migration()
- php - 辅助函数在 CodeIgniter 中无法正常工作
- javascript - 使用 karma-electron 时如何改善终端中的 Electron 错误消息?
- animation - 如何为图像的多个实例添加动画?
- java - 无法在 Intellij 中导入的 maven 项目中创建 java 包