西瓜笔记(二上)

一、误差与过拟合

学习器在训练集上的误差称为“训练误差（training error）”或“经验误差（empirical error）”；在新样本上的误差称为“泛化误差（generalization error）”。

我们并不追求训练误差的错误率为零（而且往往这种情况不会是我们想要的），我们实际希望的是在新样本上表现得很好的学习器（泛化性能强）。当学习器把训练样本学的太好的时候，很可能已经把训练样本自身的一些特点当作了潜在样本都会具有的一般性质，这样就会导致“过拟合”。

二、评估方法

通常就是我们如何选择测试集的问题。有以下几个方法。

1、留出法

直接将数据集D划分成两个互斥的集合，留出其中一个作为测试集。一般是大约2/3～4/5被用来做训练集。需要注意的是，划分尽可能保持数据分布的一致性。可以采用分层采样等。

2、交叉验证法

也称“k折交叉验证法”。我们把数据集划分成k个大小的相似的互斥子集。k-1个子集作为训练集，剩下一个作为测试集。我们可以得到k个学习结果，最后求平均返回结果。极端情况下可以用留一法但是计算开销会很大。

3、自助法

自助法用于解决因训练样本规模不同而导致的估计偏差。与“取完放回”是同理的，取m次就得到了一个m大小的训练样本。然而，有一些数据会在样本中出现多次，有些不会出现。可以计算出样本在m次采样中始终不被采到的概率是（1-1/m）^m 取极限后得到概率1/e，也就是说初始数据集中约有36.8%的样本未出现在训练集中。

这个方法带来的缺点是它产生的数据集改变了初始数据集的分布，会引入估计偏差。

三、性能度量

不仅取决于算法和数据，还决定于任务需求。

对于回归任务，最常用的性能度量是均方误差（mean squared error）