首页 > 技术文章 > 学会数据分析还得看这4个实战项目!

shiyanlou 2017-04-12 11:27 原文

前言:

大数据的火热,导致大数据挖掘分析工作也异常火热,成为很多小伙伴的职业选择,如果你想学会如何分析数据以及挖掘数据,那么这4个项目可一定不要错过。

【ebay在线拍卖数据分析】

本节课程我们将介绍另外一个国际贸易门户--ebay,一个致力于为中国商家开辟海外网络直销渠道的平台。我们可以在这个平台上充当买家或是卖家。与淘宝不同的是,这个平台不是一口价交易,而是设置一个开始竞投的价格后开始拍卖。

这节课程我们就是要利用ebay上的历史拍卖数据,用机器学习的方法来训练一个模型,以预测一项拍卖是否会成功,和成功的交易最终的成交价格。

涉及知识点:

  • 学习如何用scikit-learn的机器学习算法
  • scikit-learn 做数据分析
  • 数据分析结果可视化

训练过程截图:

训练过程截图

【使用 Spark 和 D3.js 分析航班大数据】

相信很多在机场等待飞行的旅客都不愿意听到这句话。随着乘坐飞机这种交通方式的逐渐普及,航延延误问题也一直困扰着我们。航班延误通常会造成两种结果,一种是航班取消,另一种是航班晚点。

在本课程中,我们将通过 Spark 提供的 DataFrame、 SQL 和机器学习框架等工具,基于 D3.js 数据可视化技术,对航班起降的记录数据进行分析,尝试找出造成航班延误的原因,以及对航班延误情况进行预测。

涉及知识点:

  • Spark DataFrame 操作
  • Spark SQL 常用操作
  • Spark MLlib 机器学习框架使用

效果图:

效果截图

【NBA常规赛结果预测——利用Python进行比赛数据分析】

不知道你是否朋友圈被刷屏过nba的某场比赛进度或者结果?或者你就是一个nba狂热粉,比赛中的每个进球,抢断或是逆转压哨球都能让你热血沸腾。除去观赏精彩的比赛过程,我们也同样好奇比赛的结果会是如何。

因此本节课程,将给同学们展示如何使用nba比赛的以往统计数据,判断每个球队的战斗力,及预测某场比赛中的结果。我们将基于2015-2016年的NBA常规赛及季后赛的比赛统计数据,预测在当下正在进行的2016-2017常规赛每场赛事的结果。

利用Basketball-reference.com的部分统计数据,计算每支nba比赛队伍的Elo socre,和利用这些基本统计数据评价每支队伍过去的比赛情况,并且根据国际等级划分方法Elo Score对队伍现在的战斗等级进行评分,最终结合这些不同队伍的特征判断在一场比赛中,哪支队伍能够占到优势。

Paste_Image.png

涉及知识点:

  • nba球队的Elo score计算
  • 特征向量
  • 逻辑回归

效果图:

效果截图

【大数据带你挖掘打车的秘籍】

出租车是我们生活中经常乘坐的一种交通工具,但打车难的问题也限制了我们更好地利用这种交通方式。在哪些地方出租车更容易打到?在什么时候更容易打到出租车?本课程将基于某市的出租车行驶轨迹数据,带你学习如何应用Spark SQL和机器学习相关技巧,并且通过数据可视化手段展现分析结果。

涉及知识点:

  • Spark DataFrame操作
  • Spark SQL 的 API 查询
  • Spark MLlib 的 KMeans 算法应用

效果图:

效果截图

效果截图

后记

当然,要学好数据分析,只看以上4个项目是远远不够的,如果感兴趣,你还可以看以下项目:

更多相关教程,点击实验楼进行查看~

推荐阅读