首页 > 解决方案 > 计算数据集的所有单变量统计

问题描述

我有一个数据集(例如:iris),我需要计算平均值、中位数模式并需要找到异常值

这应该是一个通用方式的函数。因此,每当我将这个函数用于任何数据集时,它都应该自动计算所有单变量统计信息。

标签: r

解决方案


现有函数而言,summary()是一种快速获取数据集中变量的各种描述性统计数据的方法,例如平均值、中值和最小/最大值(可用于确定异常值)。

以 iris 数据集为例:

>summary(iris)

    Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
    Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
    1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
    Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
    Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
    3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
    Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500

至于模式,您必须编写自己的函数 - 您可以在 Tutorials Point找到一些指导。

最后一点,我会接受 Sotos 的建议,这对您自己和其他 Stack 用户都非常有益。

谢谢!


推荐阅读