首页 > 技术文章 > 数据分析2

lulu-1221 2021-04-21 17:01 原文

数据分析的全景图和修炼指南

数据分析分成3个部分:

1、数据收集  前提

2、数据挖掘  核心

3、数据可视化   

 

1、数据采集-数据源

开源数据源

爬虫抓取

日志采集

传感器

2、数据采集-工具

八爪鱼   火车采集器   收集客     

 

3、数据采集-爬虫编写

python -- Selenium 、 lxml 、scrapy、phantomjs

 

4、数据采集-实战

如何自动抓取微博评论

如何自动下载明星海报

如何自动给微博加粉丝

 

5、数据挖掘-数学基础

概率论与数理统计、线性代数、图论、最优化方法

6、数据挖掘-基本流程

商业理解-数据理解-数据准备-模型建立-模型评估-上线发布

7、数据挖掘-十大算法

分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART

聚类算法:k-means、EM

关联分析:Apriori

连接分析:pageRank

 

8、数据挖掘-实战

如何对手写数字进行识别

如何进行乳腺癌检测

如何对文档进行分类

。。。

9、数据可视化-python

matplotlib and seaborn

10、数据可视化-第三方工具

DataV

在工具中灵活使用,在项目中加深理解

 

修炼指南

认知很重要,认知到成长更重要

把知识转化成自己的语言,他才是真正变成我们的东西

认知-工具-实战

自下而上:带着概念做总结

自上而下:带着问题找答案

 

1、不重复造轮子

2、工具决定效率(熟练度)

 

记录每天的认知:记录对知识点的理解

这些认知对应工具的哪些操作:多练习

做更多的练习巩固你的认知

 

 

人与人最大的差距在认知

 

学习要做学习笔记——————划重点,要考

推荐阅读