首页 > 解决方案 > 您使用哪种算法通过链式方程 (MICE) 进行多重插补是否重要

问题描述

我见过用不同类型的算法实现的 MICE,例如 RandomForest 或 Stochastic Regression 等。

我的问题是,哪种类型的算法(即一种算法表现最好)是否重要?有经验证据吗?我正在努力在网上找到任何信息

谢谢

标签: imputationr-mice

解决方案


是的,(取决于您的任务)您选择哪种算法可能非常重要。

你也可以肯定,mice如果有一种算法总是表现最好,开发人员不会努力提供不同的算法。因为,当然,就像在机器学习中一样,“没有免费的午餐定理”也与插补有关。

一般来说,您可以说,鼠标的默认设置通常是一个不错的选择。

从miceRanger Vignette 中查看此示例,了解不同算法的插补可以相差多远。(真实分布用红色标记,各自的多重插补用黑色标记)

在此处输入图像描述

例如,预测均值匹配 (pmm) 算法确保仅出现估算值,这些值确实在数据集中。例如,这很有用,其中只有像 0,1,2,3 这样的整数值出现在数据中(并且两者之间没有值)。其他算法不会这样做,因此在进行回归时,它们还将提供插值,如右图所示(因此它们将提供例如 1.1、1.3、...等插补值)这两种解决方案都可能存在某些缺点. 这就是为什么事后实际评估插补性能很重要的原因。在小鼠中有几个诊断图可以做到这一点。


推荐阅读