首页 > 技术文章 > 【Udacity】数据的差异性:值域、IQR、方差和标准差

Neo007 2017-09-25 23:19 原文

一、值域(Range)

Range = Max - Min
受异常值(Outliers)影响

二、四分位差(IQR)

四分位距(interquartile range, IQR),又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别(即Q1~Q3 的差距)。

三、异常值(Outlier)

异常值的常用定义:Outlier < Q1 - 1.5IQR

 OR      > Q3 + 1.5IQR
  • 可视化——Box Plots(箱线图) & Whisker(盒须图)

  • IQR的不足
    值域和IQR都无法将所有数据考虑进来;
    完全不同的两个数据集也可以有相同的IQR:Normal(正态分布)、Bimodel(双峰分布)和Uniform distribution(均匀分布)

  • we need one number that decribes the spread data that takes all the data into account.(数据分布+考虑所有数据)

四、方差(variance)

  • 平均值的平方偏差-Means of squared deviations/average squared deviation

平方和本质——正方形面积

五、标准差(Standard Deviation)

正方形的边长——方差的平方根

  • 标准差和正态分布图

六、贝塞尔校正(Bessel's correction)

  • 通常,抽样差异性<总体差异性(遗漏稀有值)
    ** n ——> n-1 **

七、样本标准偏差

  • 区分总体标准差σ和样本标准差s
    1.样本标准差 估算大样本集时使用小写的s
    —— 有样本,并需要估算总体标准差——>分母为n-1
    —— 有总体数据集——>分母为n

推荐阅读