首页 > 技术文章 > 迟来的2013年总结

haolujun 2014-01-25 14:12 原文

和去年一样,来一个年终总结吧,算是自己一年的记录。

工作:

13年4月18号入职,到现在也有8个多月。
搞的是数据这行,不是数据挖掘,是数据分析。所以关于大数据的书看了很多。
工作分为几部分:

1:在数据平台组,所以工作比较杂。每天都要处理一大堆的业务需求,给出各种各样的统计数据。其实最难得部分在于如何把一个统计需求落实在具体的数据中,比如,日志在哪,应该如何统计才能得到他们要的数字。而诸如如何写hive sql和MR这些东西都非常简单,不用花太多精力。期间迁移并且改造了40多张报表,也算是阶段性的成果吧。

2:接手了公司的日志收集系统,负责其开发与维护以及应用推广。修改了原版系统若干bug就不说了。做的最重要的两件事就是:
1.改造它使他能够支持服务的动态插拔,并且消除了单点故障问题,推出了新版的客户端。
2.日志传到集群上之后要每天进行压缩,原来是早上7点才能把所有日志压缩完毕,现在改进后大概凌晨1点之前就行。所以,对于依赖这些数据进行处理的业务现在也可以提前6个小时处理,在每天上班前就能发送前一天数据报表等等,这样公司的各种领导们就可以及时的看到数据指标了。老大是很赞这个改进的。

工作中学习了很多新的东西,比如如何使用hive,怎么写sql,怎么写MR,还有shell脚本。数据分析方面也算是了解一些,而且我觉得数据分析挺有趣。我也是我们组唯一一个在数据收集,存储,业务数据统计整个链条中都参与的人。虽然,在他们眼中,我只不过是一个新兵蛋子,不屑一顾,但是我接触了很多东西,多少自己有些心得体会。这一段时间也思考了一下数据平台的本职工作是什么,我的观点:

提供可靠,稳定,高效的数据统计平台,包括数据收集,存储,数据分析以及展示,发现和分析数据中暴露出的问题,并且提出合理建议,支持其它部门业务的决策。所以我认为它要分两个部分的工作:
1:提供切实可用的数据分析平台,这个主要是技术方面的。比如提供集群,日志收集,hive等这些必不可少的基础设施与系统。
2:数据分析。如果说数据平台没有人知道怎么进行数据分析,那么我觉得就相当于一个瞎子拿了一把AK47想和别人PK。枪再好,没有眼睛也没用武之地。

第二点我们现在做的并不好,所有人现在满脑袋都是技术,所以需要有人出来指出另一个方向。我也正在学习分析这方面的东西,总有人需要做这些事,既然你们不做,那我就来做。我要做一个既要懂技术也要懂数据的人。老大现在也非常支持我做一些数据分析更深入的工作,怎么说呢,加油干吧。

关于跳槽:

现在我们组人员跳槽率太高,主要都是因为工作不顺或者太枯燥才走的,搞过数据的人,都知道这份工作是多么的枯燥,乏味以及累。所以,我们的工作量也是越来越大,现在真正做数据平台的人也不过5,6个人,压力很大。能不能扛得住,全看个人。我的目标是坚持3年,第一份工作不能说跳就跳,这是不成熟的表现,也是懦夫的行为。

要是去年的我看到我今年的东西肯定会接受不了,因为我去年还沉迷于各种技术,Linux,C++,分布式,RPC这些,甚至还看了汇编,总觉得技术牛逼才牛逼。

但是我现在有一个感觉,就是技术只是我解决问题需要用到一种武器,而我需要用这把武器要打到什么样的猎物才是我关心的,可以说我的关注点从武器转到猎物上面了,这算是一个转变。我现在心里也没什么谱,但是总觉得不能再拿着枪瞎嘚瑟了。不过古语有句话“君欲善其事,必先利其器”,所以技术这面我也不会放下,也还是要花一些心思在上面的,但是度要把握好。

博客:
说道写博客,今年大多数的博客都是在学校的时候写的。工作之后基本就没怎么写,因为自己的思绪很乱,整理不出一篇像样的东西。
学校里写了一些6篇信息检索相关的,都是自己看完书后意淫,没什么实际经验和价值,所以行家看到就呵呵就好了。此外又写了一篇《自己动手实现自旋锁》,我只是把那本书上关于锁的东西证明了一下而已,但是我觉得软件上实现锁这个东西确实很有意思。又写了一篇《自己动手编译、运行Java程序》,也算是对Java的学习,大牛们也可忽略。

学习:

今年看的书单列在下面,有些看的很仔细,有些就止于皮毛了,大神见到别笑话。

*****全部读完
**** 读完一大半
***   看完一半
**     挑着某些章节看
*       随便翻了翻
-       至今还没翻看过

理论、算法、数学:
***** 大数据-互联网大规模数据挖掘与分布式处理 (Anand Rajaraman, Jeffrey David Ullman著)
****   概率论基础教程 (Scheldon M.Ross著)
***     web数据挖掘 (Bing Liu著)
**       线性代数 (Steven J.Leon著)
**       具体数学 (Ronald L.Graham, Donald E.Knuth, Oren Patashnik著)
*         数理统计与数据分析 (John A.Rice著)
*         研究之美 (高德纳著)
*         网络、群体与市场 (David Easley, Jon Kleinberg著)
*         策略博弈 (Avinash Dixit, Susan Skeath, David Reiley著)

技术:
***** 网站分析实践 (王彦平 吴盛峰编著)
***     hadoop技术内幕 (董西成著)
**       流量的秘密 (Brian Clifton著)
**       hadoop技术内幕 (蔡斌,陈湘萍著)
**       BOOST程序库完全开发指南 (罗剑锋著)
**       数据挖掘与R语言 (Luis Torgo著)
*         TCP/IP协议族 (Behrouz A.Forouzan著)

科普、传记
***** 浪潮之巅 (吴军著)
***** 杰克韦尔奇自传 (Jack Welch, John A.Byme著)
***** 习惯的力量 (Charles Duhigg著)
***** 大数据时代 (Viktor Mayer-Schonberger, Kenneth Cukier著)
***** Big Data (涂子沛著)
****   谁是谷歌想要的人才 (William Poundstone著)
**      失控 (kevin kelly著)
-        六度分割 (Duncan J.Watts著)
-        大连接 (Nicholas A.Christakis, James H.Fowler著)

4月份之前在学校的部分基本就回忆不起来了。工作了之后发现确实比在学校的时候懒了许多,总会拿工作了一天太累为借口而不看书。即使看书也是一些不浪费脑细胞的。
科普传记看的比较多,可以看出我这一年很浮躁。不过也可能是因为后面这类书的缘故,我得想法和以前有很大的转变。前两类书看的比较少,这是我明年需要加强的地方,需要增加自己的理论功底。大数据的书看的比较多。我经常听别人说"大数据被称为几(具体是1,2,3还是多少我就不知道了)大浮之一",我觉得有这种现象,至少说明这个领域最近很活跃,那么只要它够活跃,还是能出现一些很新颖的东西,所以别管浮不浮,只要自己的心别浮躁就可以。

现阶段工作目标是从一个技术人员转行称为一名数据分析员,努力干吧。

 

推荐阅读