第一篇 监督学习
一、统计学习及监督学习概论
1. 统计学习是什么
(1)研究对象:数据!从数据出发,提取数据特征,抽象出数据模型,发现数据中的知识,最后回到对数据的分析和预测中去。
数据种类多样,包括不限于:数字、文字、图像、视频、音频以及它们的组合等
统计学习前提:假设同类数据具有一定的**统计规律性**
(2)研究目的:对(未知)数据预测与分析
通过构建**概率统计模型**实现
考虑学习什么样的模型和如何学习模型,从而使模型可以对数据进行准确的预测与分析,同时要尽可能**提高学习效率**
(3)研究方法:基于数据构建概率统计模型,从而对数据进行预测与分析。具体步骤如下:
① 一个有限的、独立同分布的、用于学习的**训练数据**集合
② 假设要学习的**模型**属于某个函数的集合,称为**假设空间**,即**学习模型**的集合
③ 确定模型选择**评价准则**,即**学习的策略**
④ 从假设空间中选一个最优模型(对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测),即**学习的算法**
⑤ 通过学习算法选择**最优模型**
⑥ 利用**最优模型**对新数据进行预测或分析
2. 统计学习的分类
(1)基本分类
① 监督学习:
- 学习一个由「输入」到「输出」的映射,用模型来表示。
- 分为「学习」和「预测」两个过程,由「学习系统」和「预测系统」完成。
② 无监督学习:
- 从无标注数据中学习预测模型(数据的类别、转换、概率)
- 学习数据中的统计规律或潜在结构
③ 强化学习
- 智能系统在与环境的连续互动中学习最优行为策略的机器学习问题
- 目标是**长期累积奖励**的最大化,通过不断**试错**(trail and error)
④ 半监督和主动学习
(2)按模型分类
① 概率模型 & 非概率模型
② 线性模型 & 非线性模型(主要针对非概率模型)
③ 参数化模型 & 非参数化模型
(3)按算法分类
① 在线学习(online learning):就在线监督学习而言,系统用损失函数计算模型给出的结果f(x)与输入对应的输出y的差异,更新模型;并重复。
② 批量学习(batch learning)
(4)按技巧分类
① 贝叶斯方法(Bayesian learning):计算给定数据条件下模型的条件概率,以此进行模型的估计以及对数据的预测。
② 核方法(kernel method):不显式定义映射,而是直接定义核函数,即映射之后在特征空间的内积。
3. 方法三要素
(1)模型:所要学习的条件概率分布(概率模型:P(x|y))或决策函数(非概率模型:y=f(x))
(2)策略:从假设空间中选取最优模型
① 损失函数和风险函数
损失函数:度量模型一次预测的好坏
风险函数:度量平均意义下模型预测的好坏
② 经验风险最小化和结构风险最小化
(3)算法
4. 模型评估与模型选择
(1)训练误差与测试误差
(2)过拟合与模型选择
5. 正则化与交叉验证
(1)正则化
(2)交叉验证
① 简单交叉验证
② S折交叉验证
③ 留一交叉验证
6. 泛化能力
(1)泛华误差
(2)泛华误差上界
7. 生成模型与判别模型
8. 监督学习应用
(1)分类问题
(2)标注问题
(3)回归问题