r - 名义尺度变量和基数尺度变量之间的相关系数
问题描述
我必须描述变量“每场比赛完成的平均传球次数”(基本量表)和变量“位置”(名义量表)之间的相关性,并测量相关性的强度。为此,我必须考虑尺度正确选择相关系数。有谁知道最好的方法是什么?我不确定要使用什么,因为它是两个不同的比例。完整的数据集由以下变量组成:
- PLAYER:玩家的名字
- 国家:原产国
- 生日:生日日期
- HEIGHT_IN_CM:玩家的高度
- POSITION:玩家的位置
- PASSES_COMPLETED:玩家完成的传球
- DISTANCE_COVERED:玩家所覆盖的距离,以公里为单位
- MINUTES_PLAYED:播放分钟数
- AVG_PASSES_COMPLETED:玩家完成的平均传球次数
如果有人能给我一些建议,我将不胜感激。
谢谢!
解决方案
好的,所以你需要重新定义你的问题。没有两个连续变量,我猜你在问,相关性不能用来“描述”一种关系。但是,您可以查看不同职位之间的通过率是否存在统计学上的显着差异。至于关于统计的问题,我同意莫蒂斯的观点……简历是最好的地方。至于进行测试的代码,试试这个:
首先,您需要确保安装了正确的软件包。您肯定需要 ggplot 和 ggfortify,如果您必须操作数据或其他东西,可能还需要其他工具。并加载库:
library(ggplot2)
library(ggfortify)
接下来,确保您的数据整洁:即列中的变量。
然后将数据导入 R:
#find file
data.location = file.choose()
#Import data
curr.data <- read.csv(data.location)
#Check data import
glimpse(curr.data)
然后使用 ggplot 绘图:
ggplot(curr.data, aes(x = POSITION, y = AVG_PASSES_COMPLETED)) +
geom_boxplot() +
theme_bw()
然后使用线性模型函数 ( lm()
) 进行建模,以查看关于位置的通过率是否存在显着差异。
passrate_model <- lm(AVG_PASSES_COMPLETED ~ POSITION, data = curr.data)
在测试假设之前,您需要检查模型的适当性
autoplot(passrate_model, smooth.colour = NA)
如果残差图看起来不错,那么我们就可以进行测试了。如果不是,那么您将不得不使用另一种类型的模型(我现在不会在这里讨论......)。
对此(我认为)的适当测试将是 Tukey 测试,这需要 ANOVA。这将给出一个摘要,并应向您显示是否因位置而存在差异:
passrate_av <- aov(passrate_model)
summary(passrate_av)
这将执行 Tukey 检验并给出成对比较,包括均值差异、95% 置信区间和调整后的 p 值:
tukey.test <- TukeyHSD(passrate_av)
tukey.test
它甚至可以为你做一个很好的情节:
plot(tukey.test)
推荐阅读
- ruby - 如何分解创建子字符串方法
- typescript - TypeScript 说类型是“任何”,当它被显式设置为其他东西时
- javascript - JQuery,如何传递 slug 变量
- c++ - 由于 C++ 编译器未创建可执行文件,Warble 构建失败
- javascript - 如何使用 Javascript 确定在 iOS 设备上按下了哪个按钮?
- sql - 从子查询定义新变量 - 只允许标量表达式。(SQL 服务器)
- c# - ASP.Net C# - 检查 WebClient() 连接是否返回 404 或访问被拒绝
- flutter - 颤振:运行时检查应用程序的互联网连接
- javascript - 将 JSON & JS 嵌入 HTML 表单
- python - 在 django 模型中保存之前的数据处理