首页 > 解决方案 > 如何计算不平等组之间分类变量的效应大小

问题描述

我有一个大约 80,000 个的大型数据集。我正在执行一系列多重回归并保留默认参数以省略 NA(我的截止日期很紧,计算能力很差,所以没有时间进行多重插补)。

这意味着例如对于一个结果,我有大约 50000 个观察值。我想检查这 50000 个与其他 30000 个在每个感兴趣的变量方面没有太大区别。

由于大 NI 认为使用效应大小的测试会比显着性更好。在 R 中,我使用我发现的科恩 D 函数对每个连续变量进行了单独的科恩 D 检验,例如

cohensd(completecases$age, incompletecases$age)

但是如何处理分类变量?

phi 系数不适合,因为我的一些因素有超过 2 个级别(例如种族有白人、黑人、亚洲人、混合)。我还查看了 Cramer 的 V,但这要求我的样本(完整和不完整)大小相同。在不相等的组中,我可以对超过 2 个级别的分类变量执行什么效果测试?

我能想到的就是创建一个新变量来指示样本成员资格并执行例如种族〜成员资格的逻辑回归

标签: r

解决方案


推荐阅读