首页 > 解决方案 > 名义尺度变量和基数尺度变量之间的相关系数

问题描述

我必须描述变量“每场比赛完成的平均传球次数”(基本量表)和变量“位置”(名义量表)之间的相关性,并测量相关性的强度。为此,我必须考虑尺度正确选择相关系数。有谁知道最好的方法是什么?我不确定要使用什么,因为它是两个不同的比例。完整的数据集由以下变量组成:

如果有人能给我一些建议,我将不胜感激。

谢谢!

标签: rstatisticsstatistical-test

解决方案


好的,所以你需要重新定义你的问题。没有两个连续变量,我猜你在问,相关性不能用来“描述”一种关系。但是,您可以查看不同职位之间的通过率是否存在统计学上的显着差异。至于关于统计的问题,我同意莫蒂斯的观点……简历是最好的地方。至于进行测试的代码,试试这个:

首先,您需要确保安装了正确的软件包。您肯定需要 ggplot 和 ggfortify,如果您必须操作数据或其他东西,可能还需要其他工具。并加载库:

library(ggplot2)
library(ggfortify)

接下来,确保您的数据整洁:即列中的变量。

然后将数据导入 R:

#find file
data.location = file.choose()
#Import data
curr.data <- read.csv(data.location)
#Check data import
glimpse(curr.data)

然后使用 ggplot 绘图:

ggplot(curr.data, aes(x = POSITION, y = AVG_PASSES_COMPLETED)) +
  geom_boxplot() +
  theme_bw()

然后使用线性模型函数 ( lm()) 进行建模,以查看关于位置的通过率是否存在显着差异。

passrate_model <- lm(AVG_PASSES_COMPLETED ~ POSITION, data = curr.data)

在测试假设之前,您需要检查模型的适当性

autoplot(passrate_model, smooth.colour = NA)

如果残差图看起来不错,那么我们就可以进行测试了。如果不是,那么您将不得不使用另一种类型的模型(我现在不会在这里讨论......)。

对此(我认为)的适当测试将是 Tukey 测试,这需要 ANOVA。这将给出一个摘要,并应向您显示是否因位置而存在差异:

passrate_av <- aov(passrate_model)
summary(passrate_av)

这将执行 Tukey 检验并给出成对比较,包括均值差异、95% 置信区间和调整后的 p 值:

tukey.test <- TukeyHSD(passrate_av)
tukey.test

它甚至可以为你做一个很好的情节:

plot(tukey.test)

推荐阅读