首页 > 解决方案 > 以百分比计算两列的相关分布

问题描述

我正在处理具有多个数据列的数据集。

在这个数据集中,我计算了两列中 2 的分位数,并将分位数的结果转换为 2 个新列,其中每个单元格显示了属于的四分位数的数量。

四分位数列的图像

现在我想得到这 2 列之间的分布关系。我的意思是,例如,当第 1 列的结果为 4 时,与第 2 列的结果有什么关系?

例如:

当第 1 列中的结果为 4 = 1 的 30%、2 的 20%、3 的 40%、第 2 列中 4 的 10%

当结果是 1,2,3 时也是如此...

也许我正在寻找的东西在统计中有一个名字,但不确定是什么。

任何人都可以帮忙吗?

非常感谢。

标签: rstatisticsrelationshippercentage

解决方案


library(tidyverse)

data <- mtcars %>% 
   select(vs, gear) # the similar dataset 

data %>% 
    group_by(vs, gear) %>% 
    summarise(n = n()) %>% 
    ungroup() %>%
    group_by(vs) %>% 
    mutate(perc = n/sum(n))

推荐阅读