r - 我将如何自动计算各个国家/地区的小标题内的相关性并有效地存储?
问题描述
有点 R 的初学者,我正在处理一个相对较大的数据集(至少对我来说),大约 500,000 行。
我试图为 PISA 数据集(基于教育的调查)找到不同国家的变量之间的相关性(具体测量欺凌的影响)。
我能够根据具体情况计算国家/地区的相关矩阵。
我想记录所有这些国家/地区的两个变量(因此不一定是整个矩阵)之间的相关性 - 将其自动化并将结果全部存储在一个小标题中,这样我就不需要花时间手动执行此操作。
correl_countries = tibble()
for (each in list_countries){
countries_bullying %>% #tibble subset of the original data
filter(CNTRYID == each)%>%
select(reading_score, bullied_index)%>%
correl = cor(use = "pairwise.complete.obs") #something to store the correlation values
correl_countries %>% add_row(x = each, y = correl) #wanted to add these results to a tibble
}
目前似乎什么都没有发生,我收到了这个错误。
Error in is.data.frame(x) : argument "x" is missing, with no default
这可能与“pairwise.complete.obs”生成相关矩阵而不是单个向量这一事实有关。
感谢您的建议!
解决方案
新用户在这里-不知何故不能发表评论。如果我理解正确,您想计算每个国家/地区的 2 个变量之间的相关性,并将其存储在单独的小标题中。将“df”替换为数据集的名称,将“国家”替换为包含所有国家/地区的数据集中的变量。对于大型数据集,可能会有更优雅的解决方案(即每个循环子集更少的变量)。
correl_countries <- c()
vec <- unique(df$countries)
for (i in 1:length(vec)) {
new <- df[df$countries == vec[i],]
correl_countries[i] <- cor(new$var1, new$var2)
}
tibble(vec, correl_countries)
推荐阅读
- html - 如何从上到下为 div 设置动画?像一颗流星
- flutter - 一旦失焦,文本字段就会刷新
- node.js - npm publish 尝试发布到 github 包注册表时忽略 dist 目录中的文件
- javascript - 获取完全呈现的日历页面的实际高度(FullCalendar)
- google-apps-script - 锁定工作表然后导出 URL
- r - R - 如何根据包含日期序列的向量的值将列添加到数据框/data.table
- r - 最长的 Collatz 序列 1:n
- sql-server - 在 Excel Microsoft Data Query 中嵌入用户名和密码,以便其他用户可以刷新数据
- java - 找不到答案,Jersey 404 错误,当转到网页 rest/*,git 代码 https://gitlab.com/Kaidstor/job-access
- python - OpenCV 只接受我在 PyCharm 中的路径字符串