首页 > 解决方案 > SAS 企业指南中回归中的 0 DF

问题描述

我在 SAS 中创建了假人(下面的部分代码)并运行回归(扔掉了 M23)。它工作正常。但后来我尝试按年龄对他们进行分组,因为我们没有足够的成员。我以同样的方式运行它并丢弃了一个年龄组(M20to24,因为该组的成员数最高)。现在我的一些变量有 0 DF。有谁知道出了什么问题?我收到了消息 - 注意:型号不是满级。参数的最小二乘解不是唯一的。一些统计数据会产生误导。报告的 DF 为 0 或 B 意味着估计有偏差。以下参数已设置为 0,因为变量是其他变量的线性组合,如图所示。

  data  Table;
set Table;
M0=(AgeGender = '0M');
M1=(AgeGender = '1M');
M2=(AgeGender = '2M');
M3=(AgeGender = '3M');
M4=(AgeGender = '4M');
M5to9=(AgeGender = ' 5to9M');
M10to14=(AgeGender = '10to14M');
M15to19=(AgeGender = '15to19M');
M20to24=(AgeGender = '20to24M');
M25to29=(AgeGender = '25to29M');
M30to34=(AgeGender = '30to34M');
M35to39=(AgeGender = '35to39M');
M40to44=(AgeGender = '40to44M');
M45to49=(AgeGender = '45to49M');
M50to54=(AgeGender = '50to54M');
M55to59=(AgeGender = '55to59M');
M60to64=(AgeGender = '60to64M');
M65Plus=(AgeGender = '65+M');
F0=(AgeGender = '0F');
F1=(AgeGender = '1F');
F2=(AgeGender = '2F');
F3=(AgeGender = '3F');
F4=(AgeGender = '4F');
F5to9=(AgeGender = ' 5to9F');
F10to14=(AgeGender = '10to14F');
F15to19=(AgeGender = '15to19F');
F20to24=(AgeGender = '20to24F');
F25to29=(AgeGender = '25to29F');
F30to34=(AgeGender = '30to34F');
F35to39=(AgeGender = '35to39F');
F40to44=(AgeGender = '40to44F');
F45to49=(AgeGender = '45to49F');
F50to54=(AgeGender = '50to54F');
F55to59=(AgeGender = '55to59F');
F60to64=(AgeGender = '60to64F');
F65Plus=(AgeGender = '65+F');
Dep = (Relationship = 'Dep');
Mandatory = (Mand_Vo = 'Mandatory');
run;

ods output ParameterEstimates=Parameter_Estimates; 
proc reg data= Table;
model logPMPM = 
M0
M1
M2
M3
M4
M5to9
M10to14
M15to19

M25to29
M30to34
M35to39
M40to44
M45to49
M50to54
M55to59
M60to64
M65Plus
F0
F1
F2
F3
F4
F5to9
F10to14
F15to19
F20to24
F25to29
F30to34
F35to39
F40to44
F45to49
F50to54
F55to59
F60to64
F65Plus;
weight Membership;
run; 
ods output close; 

标签: sasregression

解决方案


看起来您没有重叠或相同的互补数据变量,但这是根据定义。您的数据很可能是偶然发生的,这很难找到。您可以通过交叉您怀疑可能相关的变量或进行成对散点图 (PROC SGSCATTER) 并查看哪两个几乎相同地重叠来发现这一点。

你是对的,连续值不会出现这种行为,因为它们是连续的并且不太可能完全重叠。通常,当您可以保持变量连续时,最好不要对变量进行分类/分类。界限是人为的,一个34岁的人和那个36岁的人真的有区别吗?如果该年龄段的所有人都是 34 岁,而 35 至 39 岁年龄段的所有人都是 36 岁呢?您可能没有发现差异,但如果您的分布是 39 岁的所有人与 31 岁的所有人,您可能会发现更多差异。保持数据的连续性可以避免这些人为的问题。


推荐阅读