首页 > 技术文章 > 相关和回归

fuyusheng 2020-05-17 13:55 原文

统计学中,一般将变量与变量之间的关系划分为函数关系和相关关系。

函数关系:因变量与自变量之间存在函数式关系。当一个变量或几个变量取一定的值时,另一个变量有确定值。例如,当给出圆的半径r时,就可以根据S=πr2,计算出圆面积S。

相关关系:因变量与自变量之间存在非严格的依存关系。当一个变量或几个变量取定一个数值时,另一个对应变量的数值是不确定的。但是,该变量的数值却是随着前述变量的所取数值而发生一定的变化规律。例如,人的身高与体重之间的关系就属于相关关系。

通常在分析多组数据之间的关系时,首先通过相关分析确定数据之间的相关关系,然后再通过回归分析确定数据之间的函数关系。

 

一、相关(注重研究变量之间相关性和相关程度)

按相关的程度可分为完全相关、不完全相关、不相关。

按相关的方向分为正相关和负相关。

按相关的形式分为线性相关和非线性相关。

 

线性相关:当变量之间的关系可以通过线性方程表达时,它们的关系就是线性相关,当只有两个变量时,线性关系表现为直线(一元线性关系)如下图,非线性关系表现为曲线。

 

 

 

协方差

协方差在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

协方差的正负性反映了两个变量的变化趋势是否一致,协方差绝对值大小反映了两个变量变化的一致程度

协方差定义式:

 

相关系数r:是研究变量之间线性相关程度的量,两个变量相关系数的定义为协方差与变量标准差乘积之比

(线性)相关系数定义式为:  ,代表数值X的样本标准差,数值Y的样本标准差。

为负,则两变量之间存在负线性相关关系,越接近-1,相关性越强,值 = -1时,完全负线性相关。

为正,则两变量之间存在正线性相关关系,越接近1,相关性越强,值 = 1时,完全正线性相关。

接近0时,线性相关性减弱,值 = 0时,不存在相关性。

 

决定系数(相关系数的平方):决定系数越接近1,越能通过x预测y;越接近0,则无法预测。

 

 

二、回归(注重研究变量之间的关系模型)

当确定变量之间存在线性关系,需要确定变量之间的函数式,当变量个数=2,需要找到接近所有数据点的最佳拟合直线。

假定直线:y = ax + b,则需要最小化SSE求出参数a, b。

SSE:误差平方和。 

计算参数a

因为 ,所以变形可得到 ,即相关系数和拟合线斜率的关系

计算参数b:通过x和y的均值计算b, 。

 

多元线性回归https://www.cnblogs.com/fuyusheng/p/12913030.html

2020-05-17 11:11

 

推荐阅读