首页 > 技术文章 > 模型评估和参数调优

hhhuang 2020-02-18 22:30 原文

模型评估和参数调优

本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式图片均出自该书.
本博客仅为个人总结学习,非商业用途,侵删.
网址 http://www.ptpress.com.cn

1. 准确率

准确率是指分类正确的样本占总样本个数的比例, 即
其中\(n_{correct}\)为被正确分类的样本个数, \(n_{total}\)为总样本的个数。
准确率存在明显的缺陷,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。

2. 精确率与召回率的权衡

精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
召回率是指分类正确的正样本个数占真正的正样本个数的比例。
Precision值和Recall值是既矛盾又统一的两个指标, 为了提高Precision值, 分类器需要尽量在“更有把握”时才把样本预测为正样本, 但此时往往会因为过于保守而漏掉很多“没有把握”的正样本, 导致Recall值降低。
对于一个排序模型来说, 其P-R曲线上的一个点代表着, 在某一阈值下, 模型大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本, 此时返回结果对应的召回率和精确率。

如下图:整条P-R曲线是通过将阈值从高到低移动而生成的。

F1_score是精准率和召回率的调和平均值, 它定义为:

G-Mean:G-mean 是正例准确率与负例准确率的综合指标。

与 F1 的比较:在数据平衡度不是很大的情况下,F1 和 G-mean 可以作为较好的评测指标,但是当训练样本很不平衡时,F1 更好。
G-mean 评估一个学习算法的综合性能。 根据之前的研究,为了能够获得尽可能多的关于每个类别对最终性能的贡献大小信息,并且考虑到数据的不平衡率,很多研究者试图在不平衡领域提出新的度量指标。 如调整 G-mean, 提出了 Adjusted G-mean。
上述的评价标准对于类分布的改变较敏感。

3. 平方根误差的意外

当构建回归模型时,无论使用哪个模型,得到的RMSE指标都非常高,但是事实的预测误差都小于1%,预测结果相当不错,造成这种RMSE指标居高不下的可能原因是什么?
RMSE经常被用来衡量回归模型的好坏。下面是RMSR的计算公式:

其中, \(y_i\)是第i个样本点的真实值, 是第i个样本点的预测值, n是样本点的个数 。
一般情况下, RMSE能够很好地反映回归模型预测值与真实值的偏离程度。 但在实际问题中, 如果存在个别偏离程度非常大的离群点( Outlier) 时, 即使离群点数量非常少, 也会让RMSE指标变得很差。
针对这个问题, 有什么解决方案呢 ?

  • 第一,如果离群点是噪声点的话可以在数据预处理时过滤掉。
  • 第二,如果不是噪声的,需要提高模型的预测能力,将离群点产生的机制建模进去。
  • 第三,可以找一个更合适的指标来评估模型。比如 平均绝对百分比误差(Mean Absolute Percent Error, MAPE),它定义为:
    相比RMSE, MAPE相当于把每个点的误差进行了归一化, 降低了个别离群点带来的绝对误差的影响 。

4. 什么是ROC曲线,如何计算AUC

ROC曲线的横坐标为假阳性率(False Positive Rate, FPR) ; 纵坐标为真阳性率(True Positive Rate, TPR)。FPR和TPR的计算方法分别为

上式中, P是真实的正样本的数量, N是真实的负样本的数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数。

​事实上, ROC曲线是通过不断移动分类器的“截断点”来生成曲线上的一组关键点的,截断点就是指区分正负预测结果的阈值。
​通过动态地调整截断点,从最高的得分开始(实际上是从正无穷开始对应着ROC曲线的零点),逐渐调整到最低得分,每一个截断点都会对应一个FPR和TPR, 在ROC图上绘制出每个截断点对应的位置, 再连接所有点就得到最终的ROC曲线。

如何计算AUC?
​AUC是指ROC曲线下的面积大小,该值能够量化地反映基于ROC曲线衡量出模型的性能。
​计算AUC值只需要沿着ROC横轴做积分就可以了。由于ROC曲线一般都处于y=x这条直线的上方(如果不是的话, 只要把模型预测的概率反转成1-p就可以得到一个更好的分类器,所以AUC的取值一般在0.5~1之间。AUC越大, 说明分类器越可能把真正的正样本排在前面, 分类性能越好 。

ROC曲线和P-R曲线有什么特点?
​相比P-R曲线, ROC曲线有一个特点, 当正负样本的分布发生变化时, ROC曲线的形状能够基本保持不变, 而P-R曲线的形状一般会发生较剧烈的变化。

MCC 马修斯相关系数

MCC(Matthews correlation coefficient):是应用在机器学习中,用以测量二分类的分类性能的指标 [83]。该指标考虑了真阳性、真阴性和假阳性和假阴性,通常认为该指标是一个比较均衡的指标,即使是在两类别的样本含量差别很大时,也可以应用它。MCC 本质上是一个描述实际分类与预测分类之间的相关系数,它的取值范围为 [-1,1],取值为 1 时表示对受试对象的完美预测,取值为 0 时表示预测的结果还不如随机预测的结果,-1 是指预测分类和实际分类完全不一致。
对数据不平衡的模型效果衡量效果较好。

5. 余弦距离

分析两个特征向量之间的相似性时, 常使用余弦相似度来表示。 余弦相似度的取值范围是[-1,1],相同的两个向量之间的相似度为1。 如果希望得到类似于距离的表示, 将1减去余弦相似度即为余弦距离。 因此,余弦距离的取值范围为[0,2], 相同的两个向量余弦距离为0。
欧氏距离体现数值上的绝对差异, 而余弦距离体现方向上的相对差异。
例如, 统计两部剧的用户观看行为, 用户A的观看向量为(0,1), 用户B为(1,0); 此时二者的余弦距离很大, 而欧氏距离很小; 我们分析两个用户对于不同视频的偏好, 更关注相对差异, 显然应当使用余弦距离。 而当我们分析用户活跃度, 以登陆次数(单位: 次)和平均观看时长(单位: 分钟)作为特征时, 余弦距离会认为(1,10)、 (10,100)两个用户距离很近; 但显然这两个用户活跃度是有着极大差异的, 此时我们更关注数值绝对差异, 应当使用欧氏距离 。

6. A/B测试和实验组对比组

为什么需要进行在线A/B测试?

  • 离线评估无法完全消除模型过拟合的影响, 因此, 得出的离线评估结果无法完全替代线上评估结果。

  • 离线评估无法完全还原线上的工程环境。 一般来讲, 离线评估往往不会考虑线上环境的延迟、 数据丢失、 标签数据缺失等情况。 因此, 离线评估的结果是理想工程环境下的结果。

  • 线上系统的某些商业指标在离线评估中无法计算,如用户点击率、 留存时长、 PV访问量等

如何进行A/B测试和划分实验组和对比组?
进行A/B测试的主要手段是进行用户分桶, 即将用户分成实验组和对照组, 对实验组的用户施以新模型, 对对照组的用户施以旧模型。 在分桶的过程中, 要注意样本的独立性和采样方式的无偏性, 确保同一个用户每次只能分到同一个桶中, 在分桶过程中所选取的user_id需要是一个随机数, 这样才能保证桶中的样本是无偏的。

7. 模型评估方法

Holdout检验:
Holdout 检验是最简单也是最直接的验证方法, 它将原始的样本集合随机划分成训练集和验证集两部分。
交叉检验:

  • k-fold交叉验证: 首先将全部样本划分成k个大小相等的样本子集; 依次遍历这k个子集, 每次把当前子集作为验证集, 其余所有子集作为训练集, 进行模型的训练和评估; 最后把k次评估指标的平均值作为最终的评估指标。 在实际实验中, k经常取10

  • 留一验证:每次留下1个样本作为验证集, 其余所有样本作为测试集。 在样本总数较多的情况下, 留一验证法的时间开销极大。 留一验证是留p验证的特例。 留p验证是每次留下p个样本作为验证集, 而从n个元素中选择p个元素有 种可能, 因此它的时间开销更是远远高于留一验证。

自助法:
自助法是基于自助采样法的检验方法。 对于总数为n的样本集合, 进行n次有放回的随机抽样, 得到大小为n的训练集。 n次采样过程中, 有的样本会被重复采样, 有的样本没有被抽出过, 将这些没有被抽出的样本作为验证集, 进行模型验证, 这就是自助法的验证过程 。
在自助法的采样过程中, 对n个样本进行n次自助抽样, 当n趋于无穷大时,最终有多少数据从未被选择过?
一个样本在一次抽样过程中未被抽中的概率为, n次抽样均未抽中的概率为。 当n趋于无穷大时, 概率为
根据重要极限,,所以有

因此, 当样本数很大时, 大约有36.8%的样本从未被选择过, 可作为验证集。

8. 超参数调优方法

网格搜索:
通过查找搜索范围内的所有的点来确定最优值 。
网格搜索法一般会先使用较广的搜索范围和较大的步长, 来寻找全局最优值可能的位置; 然后会逐渐缩小搜索范围和步长, 来寻找更精确的最优值。 这种操作方案可以降低所需的时间和计算量, 但由于目标函数一般是非凸的, 所以很可能会错过全局最优值。
随机搜索:
不再测试上界和下界之间的所有值, 而是在搜索范围中随机选取样本点。 它的理论依据是, 如果样本点集足够大, 那么通过随机采样也能大概率地找到全局最优值, 或其近似值。
贝叶斯优化算法 :
网格搜索和随机搜索在测试一个新点时, 会忽略前一个点的信息;而贝叶斯优化算法则充分利用了之前的信息 。贝叶斯优化算法通过对目标函数形状进行学习, 找到使目标函数向全局最优值提升的参数。
具体来说, 它学习目标函数形状的方法是, 首先根据先验分布, 假设一个搜集函数; 然后, 每一次使用新的采样点来测试目标函数时, 利用这个信息来更新目标函数的先验分布; 最后, 算法测试由后验分布给出的全局最值最可能出现的位置的点。
需要注意的地方, 一旦找到了一个局部最优值, 它会在该区域不断采样, 所以很容易陷入局部最优值。 为了弥补这个缺陷, 贝叶斯优化算法会在探索和利用之间找到一个平衡点, “探索”就是在还未取样的区域获取采样点;而“利用”则是根据后验分布在最可能出现全局最值的区域进行采样。

9. 过拟合与欠拟合

过拟合是指模型对于训练数据拟合呈过当的情况 ,模型在训练集上的表现很好, 但在测试集和新数据上的表现较差。
欠拟合指的是模型在训练和预测时表现都不好的情况。
降低“过拟合”风险的方法 ?

  • 从数据入手, 获得更多的训练数据,更多的样本可以让模型学习到更多的有效特征,减少噪声的影响。直接增加实验数据比较困难,可以通过数据增强的方式扩充。

  • 降低模型复杂度。 在数据较少时, 模型过于复杂是产生过拟合的主要因素, 适当降低模型复杂度可以避免模型拟合过多的采样噪声。 例如, 在神经网络模型中减少网络层数、 神经元个数等; 在决策树模型中降低树的深度、 进行剪枝等 。

  • 正则化方法。 给模型的参数加上一定的正则约束, 比如将权值的大小加入到损失函数中。 以L2正则化为例:

  • 集成学习方法。 集成学习是把多个模型集成在一起, 来降低单一模型的过拟合风险, 如Bagging方法 。

降低“欠拟合”风险的方法 ?

  • 添加新特征。 当特征不足或者现有特征与样本标签的相关性不强时, 模型容易出现欠拟合。 通过挖掘“上下文特征”“ID类特征”“组合特征”等新的特征, 往往能够取得更好的效果。 在深度学习潮流中, 有很多模型可以帮助完成特征工程, 如因子分解机、 梯度提升决策树、 Deep-crossing等都可以成为丰富特征的方法。
  • 增加模型复杂度。 简单模型的学习能力较差, 通过增加模型的复杂度可以使模型拥有更强的拟合能力。 例如, 在线性模型中添加高次项, 在神经网络模型中增加网络层数或神经元个数等。
  • 减小正则化系数。

推荐阅读