首页 > 技术文章 > 随机变量,期望,方差,离差,残差

jackhumeng 2015-03-30 20:09 原文

开博第二篇依旧回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:随机变量,期望,方差,离差,残差。

 

5 随机变量
 
随机变量(random variable)表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数,每次投掷骰子出现的点数等,都是随机变量的实例。
一个随机试验可能结果(称为基本事件)的全体组成一个基本空间Ω。随机变量X是定义基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应。例如,掷一颗骰子,它的所有可能结果是出现1点、2点、3点、4点、5点和6点 ,若定义X为掷一颗骰子时出现的点数,则X为一随机变量,出现1,2,3,4,5,6点时X分别取值1,2,3,4,5,6。
 
离散型随机变量:随机变量取值离散,只能取离散且有限个可列的数值。例如,掷一颗骰子,只能取1,2,3,4,5,6等6个自然数,不可能取到3.5这个数字的值;一个人的年龄,只能取0~150岁之间的可列数值;汽车厂一年生产的汽车数目,只能是从0到某个可数的自然数范围内。
连续型随机变量:如果随机变量可以在某个区间内取任一实数,且该区间内的实数数目趋于无限个,则称变量的取值是连续的,称为连续性随机变量。例如,统计一块田中小麦的生长高度,高度取值范围可以从[20,100]cm,在这个范围内的小麦生长高度都是可以取到的;统计18岁以上男子的身高,取值范围从[100,240]cm,在这个范围内的每个实数都可以取到,也称作连续性随机变量。
 
6 期望
先讨论离散型随机变量的期望。在概率论和统计学中,一个离散性随机变量的期望(Expectation,符号E,或\(\mu\))是试验中每次某个可能结果的概率乘以这个结果数值的总和。如果假设每次试验出现结果的概率相等,期望就是随机试验在同样的机会下重复多次的结果相加,计算出的等概率“期望”的平均值。需要注意的是,期望值也许与每一个结果都不相等,因为期望值是该变量输出值的平均数,期望值并不一定包含于变量的输出值集合里。
 
离散型随机变量期望的公式化表示为如下,假设随机变量为\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),对应发生概率\({p}_{i}(i = 1, 2, ... , n)\),\(E(X)\)为随机变量的期望:
 

\(E(X) = \sum_{i=1}^{n}{p}_{i}{x}_{i}\)

 
当\({p}_{i}(i = 1, 2, ... , n)\)相等时,也即\({p}_{i}=\frac{1}{n}\)时,\(E(X)\)可以简化为:
\(E(X) = \frac{1}{n}\sum_{i=1}^{n}{x}_{i}\)
 
连续型随机变量的期望,可以使用求随机变量取值与对应概率乘积的积分求得,设\(X\)为连续性随机变量,\(f(x)\)为对应的概率密度函数,则期望\(E(X)\)为:
\(E(X) = \int xf(x) dx\)
 
7 方差
 
在概率论和数理统计中,方差(Variance,符号D,或\({\sigma}^{2}\))用来度量随机变量与其数学期望(即均值)之间的偏离程度,在计算上,方差是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量数据离散程度的一个标准,用来表示数据与数据中心(均值)的偏离程度,方差越大,则数据偏离中心的程度越大。同时,变量的期望相同,但方差不一定相同。
 
依旧以离散型随机变量为例,假设随机变量为\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),\(\mu\)为随机变量的数学期望(均值),那么离散型随机变量\(X\)的方差可以表示为:
\(D(X) = \frac{1}{n}\sum_{i=1}^{n}{({x}_{i} - \mu)}^{2}\)
 
在计算上,如果已知随机变量\(X\)的期望\(E(X)\),则方差的计算可以简化为:
\(D(X) = E{{(X-E(X))}^{2}} = E({x}^{2}) - {[E(x)]}^{2}\) 
 
8 离差
离差也叫差量(符号\(\eta\)),是单项数值与平均值之间的差。一般计算离差平方和来表示数据分布的集中程度,此时的离差平方和与方差的关系为:
\({\eta}_{i} = {x}_{i} - \mu\)
\({\eta}^{2} = \sum_{i=1}^{n}{\eta}_{i}^{2} = nD(X)\)
 
9 残差
残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。把每个残差的平方后加起来称为残差平方和,它表示随机误差的效应。
 
例如,在线性回归中,每一点\({y}_{i}\)的估计值\({y}_{i}^{'}\)和实际值\({y}_{i}\)的差的平方之和称为残差平方和。
\(S = \sum_{i=1}^{n}{({y}_{i}-{y}_{i}^{'})}^{2}\)


*******************************************************************
版权所有,转载请注明出处
欢迎大家就数据分析、数据挖掘相关问题与我沟通交流。
E-mail:humengnju@sina.com
*******************************************************************
 

推荐阅读