首页 > 技术文章 > 机器学习之基本概念

small-office 2018-12-07 09:41 原文

一、六个步骤

1、场景解析,即进行业务场景抽象,匹配业务和算法;

2、数据预处理,即进行数据清洗,对数据进行拆分,采样,去噪等,也可以进行数据归一化或标准化;

3、特征工程,即提取数据特征;

4、模型训练,通过算法进行训练,并生成模型;

5、模型评估,评估模型成熟度;

6、服务,根据每天数据生成新模型并进行预测;

 

二、数据源结构类型

1、结构化数据,比如存在数据表中的字段,存储的是具体值;

2、半结构话数据,指按一定结构存储,但不是数据表格式的或存在表中,但不以数值存储;

3、非结构化数据,类似图像,文本或语音之类的无法以矩阵表示的结构存储。

 

三、算法分类

1、监督学习,训练的数据包括目标值,学习的过程就是特征值和目标值对应的过程,依赖于样本的打标,典型算法:逻辑回归,K近邻,朴素贝叶斯,支持向量机,随机森林;

2、无监督学习,训练样本不依赖打标数据,主要解决一些聚类场景的问题,典型算法:K-means,DBSCAN,协同过滤,LDA;

3、半监督学习,对样本进行部分打标,典型算法:标签传播;

4、强化学习,系统与外界不断交互,获取外界反馈,然后决定自身行为,典型算法:隐马尔科夫;

 

四、结果评估

TP(true positive):正样本被模型预测为正样本;

TN(true negative):负样本被模型预测为负样本;

FP(false positive):负样本被模型预测为正样本;

FN(flase negative):正本被模型预测为负样本;

精确率 = TP / (TP + FP)

召回率 = TP / (TP + FN)

F1值 =  (2 * 精确率 * 召回率 ) / (精确率 + 召回率)

 

ROC(recever operating characteristic curve):

常用的二分场景模型评估算法曲线,曲线横轴为FP,纵轴为TP,所以TP越大,FP越小说明模型越好,所以模型曲线越接近左上角越好,通过AUC值表示ROC曲线与横轴围起来的面积,AUC值越大效果越好。

 

推荐阅读