首页 > 解决方案 > 如何识别分布的右尾截止?

问题描述

我有这样的基因长度分布:

Gene  Length
Gene1  5
Gene2  6
Gene3  400000
Gene4  1000
Gene5  25000
Gene6  10
Gene7  50
Gene8  4
Gene9  100
Gene10 2000

有没有办法让我在 R 的分布中识别这些样本的右/上尾?是否需要对数转换/归一化以获得尾部(只能在正态分布中识别尾部?)或者我可以从倾斜图中识别尾部吗?

目前我正在使用仅识别上分位数:

top75 <- filter(df, Length > quantile(df$Length, 0.75))

但我试图找出 R 中是否有更具体的方法来计算特别是分布右尾的截止值?对不起,如果这可能是一个简单的问题,我没有统计/计算背景,所以我怀疑我没有使用正确的术语来寻找我的答案,任何正确方向的帮助/指导将不胜感激。

示例输入数据:

df <- structure(list(Gene = c("Gene1", "Gene2", "Gene3", "Gene4", "Gene5", 
"Gene6", "Gene7", "Gene8", "Gene9", "Gene10"), Length = c(5L, 
6L, 400000L, 1000L, 25000L, 10L, 50L, 4L, 100L, 2000L)), row.names = c(NA, 
-10L), class = c("data.table", "data.frame"))

标签: rdistribution

解决方案


推荐阅读