首页 > 解决方案 > 在 R 中运行 amt:fit_issf() 模型时,来自分类预测器的“NA”结果问题

问题描述

我正在使用 R 中的 amt::fit_issf() 函数运行条件逻辑回归模型,该函数是survival::coxph() 的包装器。我有来自我不了解其来源的分类预测变量的 NA 结果。我使用的分类预测器描述了动物在“自然”和“城市”土地覆盖范围内或之间移动的每一步。它们都是因子并命名为:lu_start_reclass 和 lu_end_reclass(如下面的模型结果所示)。

这些转换的频率如下

        natural urban
natural   7141  2604
  urban   885   2173

在以下起始步骤中,真(已使用)与假(可用步骤)的比率为 1:10:

> table(test$case_, test$lu_start_reclass)
   
         natural urban
  FALSE    8860  2780
  TRUE      885  278

以及结束步骤的以下比率:

> table(test$case_, test$lu_end_reclass)
   
         natural urban
  FALSE    7141  4499
  TRUE      885  278

当我使用开始步骤和结束步骤之间的交互 ​​(start_landcover * end_landcover) 时,我会收到结束步骤不是参考类别(分配给自然的参考)的组合的 NA。如下所示

Call:
coxph(formula = Surv(rep(1, 12803L), case_) ~ sl_1 + log_sl_1 + 
    cos_ta + lu_start_reclass:lu_end_reclass + strata(step_id_), 
    data = data, model = ..1, method = "exact")

  n= 12803, number of events= 1163 

                                                    coef  exp(coef)   se(coef)      z Pr(>|z|)    
sl_1                                           0.0004767  1.0004769  0.0002256  2.113   0.0346 *  
log_sl_1                                      -0.0226574  0.9775973  0.0349130 -0.649   0.5164    
cos_ta                                        -0.4097712  0.6638021  0.0446915 -9.169  < 2e-16 ***
lu_start_reclassnatural:lu_end_reclassnatural  0.7075122  2.0289374  0.1028703  6.878 6.08e-12 ***
lu_start_reclassurban:lu_end_reclassnatural    1.1263108  3.0842570  0.1361280  8.274  < 2e-16 ***
lu_start_reclassnatural:lu_end_reclassurban           NA         NA  0.0000000     NA       NA    
lu_start_reclassurban:lu_end_reclassurban             NA         NA  0.0000000     NA       NA    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

                                              exp(coef) exp(-coef) lower .95 upper .95
sl_1                                             1.0005     0.9995    1.0000    1.0009
log_sl_1                                         0.9776     1.0229    0.9129    1.0468
cos_ta                                           0.6638     1.5065    0.6081    0.7246
lu_start_reclassnatural:lu_end_reclassnatural    2.0289     0.4929    1.6585    2.4822
lu_start_reclassurban:lu_end_reclassnatural      3.0843     0.3242    2.3620    4.0274
lu_start_reclassnatural:lu_end_reclassurban          NA         NA        NA        NA
lu_start_reclassurban:lu_end_reclassurban            NA         NA        NA        NA

Concordance= 0.62  (se = 0.01 )
Likelihood ratio test= 238.4  on 5 df,   p=<2e-16
Wald test            = 226.4  on 5 df,   p=<2e-16
Score (logrank) test = 243  on 5 df,   p=<2e-16

我还尝试使用 3 种不同的土地覆盖类别而不是 2 种,并获得相同的结果。因为我明确关心运动的方向性(它们从哪里开始和在哪里结束),所以使用虚拟变量估计交互对我来说并不理想。

我还尝试将每个协变量作为主要影响,并将它们包含在交互和开始步骤中,即“NA”中的非参考结果。有没有人对这个问题有深入的了解或对可能发生的事情有更好的统计理解?谢谢!!

标签: rlogistic-regressionnacategorical-data

解决方案


推荐阅读