首页 > 技术文章 > spss课后总结

yangaiheng 2019-11-07 20:53 原文

描述性统计分析方法是指应用分类、制表、图形及概括性数据指标来概括数据分析特征的方法。

而推断性统计分析方法则是通过随机抽样,应用统计方法把从样本数据得到的结论推广到总体的数据分析方法。

统计上,需要把样本数据所含信息进行概括、融合和抽象,从而得到反映样本数据的综合指标。这些指标称为统计量。描述数据特征额统计量可分为两类:一类表示数据的中心位置,如均值,中位数,众数等;另一类表示数据的离散程度,如方差、标准差、极差等用来衡量个体偏离中心的程度。

频率分析主要通过频率分布表、条形图、饼图和直方图、以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。

在频率分析中,饼图和条形图一般适用于分类变量的类别个数较少的情况,如果类别个数较多,如多于10类,建议选择直方图。

中心趋势是指一组数据向某个中心值靠拢的倾向。在统计学中,描述数据分布的中心位置的统计量称为置统计量。

均值一般是指数据的算术均值,是数据中心趋势的主要度量指标,也是实际问题中使用最多的指标。

把观测值按照从小到大顺序排列,剔除掉排序后的数据序列两端的部分数值计算得到的均值,称为截尾均值。

还有一种均值称为几何均值。它是样本数据连乘后得到的积开n次方得到的。

将观测值按照从小到大的顺序排列,位于中间位置的数值称为中位数。

中位数受极端值的影响较小,在具有极大或极小值的数据中,中位数比均值往往更能代表数据的集中趋势。

众数是观测值中出现次数最多的数值。

标准差用来度量观测值偏离平均数的大小,相当于平均偏差,可以直接描述数据偏离均值的程度。对于同质的数据,一个较大的标准差,代表大部分的数值个平均值之间差异较大,观测值之间的差异也越大,一个较小的标准差,代表这些数值较接近平均值,观测值之间的差异不大。

由于样本抽取的随机性,取自同一总体的不同样本的均值会有区别。

偏度用来描述变量取值分布的偏斜方向,用于衡量分布对称与否、分布不对称的方向和程度。

箱图是总结五数(最小值,第一个四分位数,中位数,第三个四分位数,最大值)的图形表现

数据标准化处理主要包括数据同趋化处理和无量钢化处理两个方面。数据同趋化处理主要解决不同性质数据问题。

标准化处理后,可以保证数据服从标准正态分布。

推荐阅读