首页 > 技术文章 > 西瓜笔记(二上)

melina-zh 2018-09-17 23:33 原文

一、误差与过拟合

学习器在训练集上的误差称为“训练误差(training error)”或“经验误差(empirical error)”;在新样本上的误差称为“泛化误差(generalization error)”。

我们并不追求训练误差的错误率为零(而且往往这种情况不会是我们想要的),我们实际希望的是在新样本上表现得很好的学习器(泛化性能强)。当学习器把训练样本学的太好的时候,很可能已经把训练样本自身的一些特点当作了潜在样本都会具有的一般性质,这样就会导致“过拟合”。

二、评估方法

通常就是我们如何选择测试集的问题。有以下几个方法。

1、留出法

直接将数据集D划分成两个互斥的集合,留出其中一个作为测试集。一般是大约2/3~4/5被用来做训练集。需要注意的是,划分尽可能保持数据分布的一致性。可以采用分层采样等。

2、交叉验证法

也称“k折交叉验证法”。我们把数据集划分成k个大小的相似的互斥子集。k-1个子集作为训练集,剩下一个作为测试集。我们可以得到k个学习结果,最后求平均返回结果。极端情况下可以用留一法但是计算开销会很大。

3、自助法

自助法用于解决因训练样本规模不同而导致的估计偏差。与“取完放回”是同理的,取m次就得到了一个m大小的训练样本。然而,有一些数据会在样本中出现多次,有些不会出现。可以计算出样本在m次采样中始终不被采到的概率是(1-1/m)m 取极限后得到概率1/e,也就是说初始数据集中约有36.8%的样本未出现在训练集中。

这个方法带来的缺点是它产生的数据集改变了初始数据集的分布,会引入估计偏差。

三、性能度量

不仅取决于算法和数据,还决定于任务需求。

对于回归任务,最常用的性能度量是均方误差(mean squared error)

错误率与精度:

错误率定义为:

其中“||”表示指示函数。

查准率(P):在预测为正例的分类结果中,真正例的比率。

查全率(R):在真正为正例的样本中,被判定为真正例的比率。

平衡点(Break-Even Point,简称BEP):是“查准率”=“查全率”的取值。

但由于BEP太过简化,更常用的是F1度量(调和函数):

但是不同的实际情况中我们的模型对查全率和查准率有不同的要求。于是需要进行加权。

根据上式,β>1对查全率影响大,β<1对查准率影响大。

另外还有较为直接的宏查准率,宏查全率,相应的宏F1;微查准率,微查全率和微F1.

 

推荐阅读