首页 > 解决方案 > 试图理解 R 中的 cdplot

问题描述

嗨,我有一个学术数据集,如果举手的数量增加,他们将获得更高的分数。

分数存储在 Class1 列中,其中H代表高分,L代表低分。

我通过 R 中的 cdplot 获得了以下情节,但据我了解,如果举手的数量增加,他们将获得较低的分数,这是错误的,但我无法正确理解输出。

请帮助我理解输出图在说什么。

使用以下代码-

getwd()
Reading.df <- read.csv("xAPI-Edu-Data.csv")
cdplot(Class1 ~ raisedhands,data =  Reading.df)

并低于输出-

在此处输入图像描述

标签: rmathstatisticsdata-visualizationdensity-plot

解决方案


反之亦然,暗带代表 H 类,当你举手数量越多时,y 轴由暗带支配,表示更多 H 类。关于这个情节的另一种方式是,如果您将 x 轴变量分成类别,并询问每个类别中类的比例,随着您的增加

例如,我们使用 iris 数据集,并且有两个类,setosa 和其他。我们将连续的 Sepal.Width 变量划分为序数(5 个 bin)并查看物种的分布:

data = iris
data$Species = factor(ifelse(data$Species=="setosa","setosa","others"))
tab = table(data$Species,cut(data$Sepal.Width,5))
barplot(sweep(tab,2,colSums(tab),"/"),
xlab="Sepal.Width ranges",ylab="Compostion of species",
col = c("lightblue","darkblue"))
legend("topright",fill=c("lightblue","darkblue"),rownames(tab),
xpd=TRUE, horiz=TRUE,inset=c(0,-0.3))

在此处输入图像描述

较高的 Sepal.width 值由更多的“setosa”物种主导。现在我们做cdplot:

在此处输入图像描述


推荐阅读