首页 > 解决方案 > 您是否必须从多元正态模拟聚类数据?

问题描述

我读过许多文章(例如这篇这篇),其中作者通过从多元正态分布

但后来我看到类似这样的帖子,其中作者指定了一个 ICC,并简单地通过从单变量法线绘制来创建集群数据。这也是fabricatr 包模拟集群数据的方式。

因此,即使聚类数据被正式定义为从多元分布中抽取,实际上是否有必要模拟从多元分布中抽取,或者您可以只从单变量中进行模拟,如下所示:

  n = 1000
  c = 50
  df = data.frame(
    agent = 1:n,
    cluster = rep(1:c, each = n/c)
  )
  df$x = df$u_i = rnorm(n = n, mean = 0, sd = 1)
  df$u_c = rep(rnorm(c, mean = 0, sd = 10), each = n/c)
  df$y = 1 + 5*(df$x + df$u_c) + (df$u_c + df$u_i)

标签: rcluster-analysissimulationstandard-error

解决方案


推荐阅读