人工智能的前提是海量的数据,在处理数据之前,要了解一些基本的统计学概念。
现有一组长度为 \(n\) 的一维数据集 \(X=x_i\) :
\[x_i=[x_1\ x_2\ x_3\ ...\ x_n]
\]
1. 平均值(Means)
平均数 反映了数据集的集中趋势,是 \(MSE(均方误差)\) 最小的统计量:
\[\bar{x}=\frac{x_1+x_2+x_3+...+x_n}{n}
\]
2. 方差(Variance)
方差 能表示数据集中数据点的离散程度:
\[S_n^2=\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2
\]
3. 标准差(Standard Deviation)
标准差 与方差一样,表示的也是数据点的离散程度:
\[S_n=\sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2}
\]