首页 > 技术文章 > L2->统计与分布(上)

aluomengmengda 2019-10-08 20:10 原文

一、加和值、平均值和标准差

1.指标:用单一的数据定义来概括性描述一些抽象或复杂数据的方式方法都叫做“指标”。

2.上述几个值都是在生产生活中大量应用的统计学指标。

3.只能做描述用,既不是对比的标尺,也不是用来具体做规则定制用的硬性尺度,更不能用来孤立的评价“好坏”。

 

二、加权均值

1. 权,即“权重”,指所占的“比重”或“重要程度”。

2. 决策权衡:在决策中做加权平均的目的是为了让整个决策既融合众多参与方、利益方的意见,同时也尽量使它向着更权威、更理性、更科学的方面倾斜,这是它的核心指导思想。

3. 经济管理学领域的“德尔菲法则”。

 

三、众数,中位数

1. 众数反映的是一个多数的概念,即一个数字比其他的数字的出现得多,或者更普遍。若没有任何一个数值比其他对象多,这种情况下不存在众数。

2. 中位数描述样本的分布,在一定程度上可以消除个别极端值对整体样本平均值的影响。

 

四、欧氏距离

1.在一个N维度的空间里,求两个点的距离,这个距离肯定是一个大于等于0的数字,那么这个距离需要用两个点在各自维度上的坐标相减,平方后再加和再开平方。

 

五、曼哈顿距离(出租车距离)

1.用来标明两个点在标准坐标系上的绝对轴距总和。

 

六、同比和环比

1.同比:与相邻时段的同一时期相比

2.环比:直接和上一个报告期进行比较

3.在一个周期结束的时候,通常要对这个周期的工作内容进行总结,这种总结的目的就是对比和经验归纳,手段通常就用同比和环比。

4.同比和环比,只要是同一对象同一单位的值对比就是有意义的。

5.营业指标中,“月环比”能够与最近一个经营周期做对比,便于快速反应;而月同比是和去年的同期月相比,这种比较会过滤掉一些周期性的波动的影响因素。

 

七、抽样

1.抽样可以了解大量样本空间的分布情况,抽样越大则抽样带来的成本减少的收益就越明显。

2.抽样会有一定的几率让不合格产品流向市场,但从工业生产的角度来说操作性大大增强,操作成本也降到极低。

3.注意:抽样对象要更加具有代表性和分散性,这样才会体现出与整个样本空间更为相近的分布特点。

4.抽样统计现在更多地应用于一些对于样本收集和存储成本过高的领域,或者由于种种原因不能做全样本收集的情况。

 

推荐阅读