r - 您是否必须从多元正态模拟聚类数据?
问题描述
我读过许多文章(例如这篇和这篇),其中作者通过从多元正态分布。
但后来我看到类似这样的帖子,其中作者指定了一个 ICC,并简单地通过从单变量法线绘制来创建集群数据。这也是fabricatr 包模拟集群数据的方式。
因此,即使聚类数据被正式定义为从多元分布中抽取,实际上是否有必要模拟从多元分布中抽取,或者您可以只从单变量中进行模拟,如下所示:
n = 1000
c = 50
df = data.frame(
agent = 1:n,
cluster = rep(1:c, each = n/c)
)
df$x = df$u_i = rnorm(n = n, mean = 0, sd = 1)
df$u_c = rep(rnorm(c, mean = 0, sd = 10), each = n/c)
df$y = 1 + 5*(df$x + df$u_c) + (df$u_c + df$u_i)
解决方案
推荐阅读
- geospatial - 过滤时 ST_contains 无法正常工作
- jenkins - 午餐 slave-agent.jnlp 的橙色按钮未显示
- asp.net-core - 如何在多个 API/Web 项目中使用 Serilog?
- angular - 如何在 Angular 和 rxjs 中的 Obersavble 类型的数组中查找或添加项目?
- python - 消息:使用 selenium python 向 Youtube 的搜索栏发送密钥 [search_bar.send_keys(course_name)] 时元素不可交互错误
- python - 正确的自定义可写(和可读)ModelSerializer 字段
- java - Apache Beam GroupByKey 重复事件
- javascript - 单击按钮时如何生成一组数组,而不会使第一个消失?
- python - 我正在运行的 python 版本之间的混淆
- python - python列表操作来比较元素的一部分而不是完整的元素