r - 使用最佳子集回归后如何选择回归模型？

问题描述

我正在使用 R 中的 jumps 包进行作业。我得到了一个结果变量和 20 个自变量，并告诉我找到生成数据点的模型。我已将其缩小为两个模型，它们仅相差一个二阶交互。我的显着性水平是 0.001，我的 t 值是 1999 df 上的 3.295。当我检查包含这种二阶交互作用的模型时，它的 t 值非常接近但略高于 3.295，它的 p 值大约为 0.000991。

有没有办法通过包含这个术语来确保我没有犯 I 类错误？我被告知在没有交互项的情况下将变量插入回归中，如果它们仍然显着，那么它们可能在模型中。但是，我的教授也向我们解释过，最简单的解释往往是正确的（奥卡姆剃刀）。

如果这太含糊，我很抱歉，但我很犹豫在网上发布太多关于该项目的信息。

标签： rmathstatisticslinear-regression

正如您所指出的，在模型选择中，您通常希望采用更简约的模型，以便它们具有更少的假设。调整后的 R 平方工作；更流行的方法是 Akaike 信息准则和贝叶斯信息准则。通常 BIC 比 AIC 更保守。当人们使用 AIC 或 BIC 时，他们通常希望获得较低的分数。没有意义这样的东西，因为它是一个完全相对的衡量标准。

当您谈论显着差异时，我认为您是在谈论偏差分析。可能性分布在卡方分布上，因此您可以使用对数似然比检验或方差分析（如果两个模型相互嵌套）来测试两个模型之间的差异，这听起来就像您所描述的模型仅不同之处通过添加参数。参数的单个对比是否显着并不一定会使您的模型更适合，因此您要做的是将整个模型与几乎相同的模型进行测试。

代码很简单anova(reducedmodel, fullmodel) ，可以使用lmtest包完成对数似然比测试lrtest(fullmodel,reducedmodel)

r - 使用最佳子集回归后如何选择回归模型？

问题描述

解决方案

推荐阅读