首页 > 解决方案 > 处理geepack R中的缺失值

问题描述

我有一个纵向数据集,其中包括前往诊所接受结核病治疗的受试者。在每次访问中,都会记录几个潜在的预测因素,并且每次访问都有一个二元结果,无论结果是有利还是不利。

一些预测变量在某些访问中缺少数据,而在同一访问中,其他预测变量具有该访问的完整数据。

当我使用 R 中的 geepack 包运行一个 gee 模型时,它给了我一个错误,我发现是丢失的数据导致了错误,因为 gee 可以处理完整的数据。

但是,如果我因为一个预测变量缺失而其他预测变量完整而删除了一个观察,我会丢弃大量数据。有解决方法吗?

标签: rmissing-data

解决方案


如果您必须拥有完整的数据,您可以尝试估算它。一种流行的图书馆/方法是“老鼠”。

但是,您必须对这种方法非常小心,因为,好吧,弥补数据是一件大事。特别是,现实世界的东西经常会随机丢失。也许极端值更有可能丢失,或者更有可能被记录下来。我的印象是,如何正确地做到这一点仍然是一个开放的研究问题。

也许在这里查看教程https://datascienceplus.com/imputing-missing-data-with-r-mice-package/或它链接到的简化版本,看看这是否适用于您的情况,YMMV。


推荐阅读