首页 > 技术文章 > 统计相关

hjlweilong 2017-06-05 12:49 原文

多重比较谬误(Multiple Comparisons Fallacy),是一种机率谬误,系指广泛比较二个不同群体的所有差异,从中找出具有差异的特征,然后宣称它就是造成二个群体不同的原因。
1992年瑞典有个研究试图找出电源线对健康的影响,他们收集了高压电源线300米范围内所有住户的样本长达25年,对超过800种疾病一一检查发生率的统计差异。他们发现幼年白血病的发病率是一般人的4倍,还推动政府为此采取行动。然而,当我们比对超过800种疾病时,有一种以上的疾病因为随机效应而呈现发病率增加是非常可能的。果不其然,后续的研究再也没有发现电源线和幼年白血病的相关及因果关系。
联系是普遍存在的,其中有些是巧合。调查样本足够多,就会出现。
P.S.这类结果经不起验证~不能重现的~
 
 
descriptive statistics是用来总结大型数据集的重要特征。如均值、中位数、众数等。
inferential statistics是根据一个小型数据集的主要特征,来对一个大型数据集进行预测,估计或者推断。

推荐阅读