首页 > 技术文章 > 2019-4(2)-数据挖掘学习笔记

xinluo-fresher 2019-04-21 16:17 原文

第一章 走进数据科学

数据挖掘技术:

1、分类-classfication

overfitting:

 

最常用算法:knn、Decision Tress

confusion Matrix

 

Receiver Operating Cjaracterostic   

auc值(0-1之间,越大越好)

2、聚类-clusterinng

最常用算法:K-Means

特殊的聚类:Hierarchical clustering 

 

3、关联规则-Association Rule

 

特点:强应用型

4、回归-Regression

overfitting问题:

 

 

数据挖掘-Data preprocessing

G.I.G.O.

 

Internet Privacy --privacy protection

例子(吸毒调查问卷填写):

 

 

Cloud Computing 

PAYG:saas  paas  issa

 

 

Parallel Computing 

cpu + gpu   产品:Mobile superComputing(invidia TK1)  

 

 

 注意事项:

数据、算法、计算工具缺一不可。

尝试用简单的模型,如knn + k-menas+Linear

有没有规律可挖掘,别做无用功(如彩票预测)

不要犯盲人摸象的错误。

 

推荐阅读