首页 > 解决方案 > 如何使用 R 中的 MICE 包估算丢失的数据?

问题描述

我有一个大约 2000 个观察值的数据集,用于进一步分析。有 4 个变量有很多缺失值(缺失百分比超过 50%)。我正在尝试使用 MICE 包来估算缺失值。以下是我的问题:

  1. 对于最终的数据集,它包含以前来自不同数据集的变量。我应该使用最终数据集来估算这些变量的缺失值,还是应该使用与这 4 个变量更相关的数据的原始数据集(这 4 个变量来自哪里)?

  2. 我在网上看到了两个不同的代码:

imputed_Data <- mice(iris.mis, m=5, maxit = 50, method = 'pmm', seed = 500)
completeData <- complete(imputed_Data,2)

另一个:

mice(anesimp2, maxit = 5, 
             predictorMatrix = predM, 
             method = meth, print =  FALSE)

我想知道这两个代码之间有什么区别以及我应该使用哪一个。如果我使用第一个代码,我也想知道在我的情况下我应该设置什么种子值。

  1. 在运行这些代码之前我应该​​对数据进行任何预处理吗?

非常感谢您的帮助!

标签: rmissing-dataimputationr-mice

解决方案


推荐阅读