首页 > 解决方案 > 回归分析中分类变量的符号

问题描述

在使用 carret 的 mdrr 数据研究逻辑回归的过程中,问题出现了。我使用总共 19 个变量创建了一个完整模型,但我对分类变量的符号有疑问。

在我的回归模型中,分类变量是:

我使用 glm 创建了一个完整的模型,但我不知道为什么分类变量的名称具有该类别中的数字之一。

-------------------------------------------------- -----------------------------------------

glm(formula = mdrrClass ~ ., family = binomial, data = train)

#Coefficients:
#(Intercept)         nDB1         nDB2           nX        nR051        nR101        nBnz2  
  #5.792e+00    5.287e-01   -3.103e-01   -2.532e-01   -9.291e-02    9.259e-01   -2.108e+00  
        #SPI          BLI          PW4         PJI2          Lop         BIC2         VRA1  
  #3.222e-05   -1.201e+01   -3.754e+01   -5.467e-01    1.010e+00   -5.712e+00   -2.424e-04  
       # PCR          H3D          FDI         PJI3        DISPm        DISPe      G.N..N.  
# -6.397e-02   -4.360e-04    3.458e+01   -6.579e+00   -5.690e-02    2.056e-01   -7.610e-03  

#Degrees of Freedom: 263 Total (i.e. Null);  243 Residual
#Null Deviance:     359.3 
#Residual Deviance: 232.6   AIC: 274.6

-------------------------------------------------- -----------------------------------------

上述结果表明nDB是有编号的,nR05和nR10与类别相关。我想知道为什么上面附有数字。

标签: rstatisticsregressionlogistic-regression

解决方案


分类变量总是如此,尤其是当它们不是二进制时(如您的 nDB)。这样你就知道你有哪个值的系数。对于 nDB 变量,模型创建了两个新变量:nDB_1,如果 nDB=1,则等于 1;如果 nDB=0 或 nDB=2,则等于 0。


推荐阅读