首页 > 技术文章 > 大数据-互联网新的制高点

sharpxiajun 2013-08-24 01:39 原文

  本来很喜欢读书的人,最近被看书所折磨,参加了总公司的读书会,没想又参加了部门的读书会,又的写一篇读书笔记了,这耽搁了我不少修炼技术的时间了。不过写东西这事情,我倒是越来越喜欢了,今天和大伙再分享一篇读书笔记,本次读的是迈尔-舍恩伯格的《大数据时代》,很棒的书,建议感兴趣的人们都可以去读读。网上可以下载到pdf,也不太长,很快就可以读完。

大数据-互联网新的制高点

  在淘宝十周年及阿里巴巴集团前CEO马云的卸任晚会上,马云说道:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”马云这句话威力巨大,导致第二周中国股市里许多与大数据相关企业的股票的涨停。这也充分证明大数据已经得到当今社会的一致认同。

  那什么是大数据呢?它的价值在哪里?它颠覆了那些传统的行为方式?它最终会给我们这个纷繁复杂的社会带来怎样的重大变革?迈尔-舍恩伯格的《大数据时代》是解答这些疑问最权威的著作。

  那什么是大数据呢?书中做出了自己的解释:大数据是建立在海量数据的基础之上,对未来预测的能力,大数据的核心就是预测。对未来准确的预测能力,或许能算一种人类梦寐以求的终极能力,回顾人类的历史,我们会发现人类的发展几乎都是在不停和未知的不确定性事物做斗争,不管是个人还是组织甚至大到民族和国家,只有正确的掌控未来的发展方向才会一直保有旺盛的生命力,而错误的理解未来一定会付出惨痛的代价,甚至最终灭亡。人类对未来预测能力的渴求由来已久,所以才会产生很多浪漫的神鬼故事和超人的传说。而现在计算机技术的发展,给人类带来可以预测未来的技术,未来不再那么飘忽不定,而是可以通过一定手段进行近乎准确的预测,这样的能力在古代只能存在于上帝的手中,而现在呢,只要你学习掌控了大数据的能力,你就能拥有上帝般的能力,这就像尼采所说的“上帝已死”,人人皆有可能成为上帝,因此大数据的到来,必定开启一个重大时代的转型。

  大数据是赋予数据一种全量分析的新能力,这新能力的效果可以类比互联网通过给计算机添加通信功能而改变了世界的例子。这也是大数据能产生伟大能量的动力之源。那么什么是全量分析的新能力呢?在大数据兴起之前,我们是身处在一个小数据时代,小数据时代的数据分析的方式是采样分析,方法的核心是使用最少的数据获取最多的信息,小数据时代的保证数据分析准确性的前提是采样的随机性,采样的随机性越高,分析结果的准确性也就越高,而采样样本的增多不会对分析结果的准确性有太大的影响,因此采样分析的方法里有一个核心的理念:认为样本的随机性比样本的数量更加的重要,但是随机性的定义往往是很难做到准确,并且随机性的定义里很容易掺杂认识事物的偏见,从而导致最终分析的结果和实际的结果相去甚远,小数据时代的分析是一个妥协性的技术,它是因为人类还没有掌握大规模数据存储和分析能力的无奈选择。而现在,随着技术的发展,特别是互联网技术的发展,人类拥有了大规模数据存储和分析能力,对数据的分析我们不用在假设随机性采样的前提,而是可以直接对全量的数据进行运算和分析,量变产生质变,全量数据的分析导致分析的结果更加接近于事实的真相。数据拥有了更好挖掘其价值的手段,这种新能力的出现和互联网的出现同样的伟大。

  大数据同时还改变了人类传统预测未来的方式。传统的预测未来的方式是研究事物之间的因果关系,什么样的结果一定是由什么样的原因所引起,在采样分析的时代里,我们常常会在随机性的定义上强加那些能推导出预定结果的原因,采样分析的偏见也就由此产生。大数据时代的数据分析不再是分析事物间的因果关系,而是通过事物之间的相关关系进行分析,相关关系分析的核心是量化两个数据之间的数理关系,当其中一个数据值增加的时候,另一个数据的数值也可能随之增加,因此可以由一个数据的变化推导出另一个数据变化的结果,书中有很多例子描述这种相关关系的分析方法,例如谷歌通过搜索的关键字预测了流感爆发的时间、地点和规模;沃尔玛通过相关关系分析,发现飓风来临时候蛋挞的销售会猛增,因此在飓风来临之前将蛋挞和飓风用品摆放在一起。所以大数据会给人类带来新的价值观:知道是什么结果就够了,没必要去关心这个结果产生的原因。我个人相信这种新的预测未来的方式比因果分析方式所带来的变革更加深远,人类不会再拘泥于有因必有果的怪圈,而是能更加自由和大胆的去探索那些未知的领域。

  一个能产生巨大能力的技术必然会催生一个实现它价值的新组织,大数据也不会例外。本书的作者总结了大数据的三大价值来源:数据本身、技能和思维,这三个价值来源也会催生三种不同类型的公司,它们分别是基于数据本身的公司、基于技能的公司和基于思维的公司。基于数据的公司是拥有大规模数据,但是没有挖掘数据技能的公司;基于技能的公司则是那些提供挖掘数据价值的能力公司;而第三种基于思维的公司是指有怎样挖掘数据的新价值的独特想法的公司。而当下正处在大数据时代的早期,因此前两种公司会显得特别突出,因为现今处理大数据的技术任然十分欠缺而能拥有大规模数据的公司也是少数,但是技术的鸿沟会随着时间的推移而被填平同时采集大规模数据的手段也会变得越来越容易,未来肯定是最后一种公司才会从大数据里攫取最多的价值。书看到这里迈尔-舍恩伯格终于写到了大数据对企业对行业的影响,作为一名互联网的从业者,我就会不自然的去思考大数据和互联网的关系,大数据对互联网企业的作用。

  在看《大数据时代》前,我常常以为大数据是互联网专有的东西,我觉得大数据就是使用像hadoop这样的技术对互联网积累的数据进行价值的挖掘,从而反向的服务被互联网所影响的人或者组织。但是当我看完《大数据时代》后,我觉得我以前的观念不是不对而是过于片面了,也许我们应该这么来理解大数据才会准确,大数据因为是互联网的发展推进了技术手段的进步,最终产生了一种解决人类预测能力难度的解决方案,它的意义可以和蒸汽机的发明开启了工业文明所起到作用相提并论,不过不管怎样去理解大数据和互联网的关系,有一点是不可否认的,互联网和大数据的联系是最紧密的,可以说是因为有了互联网才会有大数据时代的出现。互联网是大数据之父,而它的这个儿子潜力无限,威力巨大,它一定会超越这个父亲。

  大数据时代的到来,谷歌公司功不可没,没有谷歌公司无私的发表分布式文件系统、mapreduce和bigtable的论文,就不会有开源的hadoop技术出现,这也不可能让大规模数据分析的能力渗透到各个领域,但是要理解大数据和互联网的关系,我们要进行更深入的思考,为什么互联网公司会产生这样的技术,为什么互联网公司会那么迅速的应用大数据的技术呢?这需要根据互联网自身的特点来回答这个问题。

  首先第一互联网是很容易产生大数据的行业,比如谷歌公司,每天几十亿的点击率,想象一下,几十亿的点击率意味着什么,这就如同几十亿人同时在一天写一个字,或者一句话或者一篇文章,同时谷歌公司还要以几乎是毫秒级的速度处理好每一条信息,因此互联网是天生就要解决大数据问题的行业。第二点,互联网总是在绞尽脑汁的思考新的盈利模式,我们纵观下当今世界已经上市的互联网公司,它们的市值都很高,但是这些上市的公司真正挣到钱的却少之又少,就算一些盈利较好的公司,其盈利的能力和同等市值的传统公司相比也是相去甚远,投资者的信任源自于他们对互联网企业未来的盈利能力的信任,但是这种信任是有保质期的,我相信如果互联网公司不去创新盈利模式,或许不用很长的时间投资者就会慢慢失去这种耐心,但是互联网公司又绝对不能采取传统公司那样的盈利的模式,因为投资者期许它的是创新的方式,互联网最大的财富就是它所拥有的海量数据,因此挖掘现有数据资源价值的能力首先会被互联网企业所思考,最后一点就是互联网是一个开拓、冒险,创新的行业,互联网去做上面的事情不是被迫的,而是主动,互联网的从业者都是很开心的解决上面的问题,有这样文化的行业必然会激发人类的无穷潜力,创造出前所未有的东西。

  互联网开启了大数据时代,这其实也彰显了互联网雄心勃勃的野心,掌控了预测的能力就是掌控了未来,弱小的人们会慢慢过分依赖这种非凡的能力,这就如同出埃及记里先知摩西带领苦难的犹太人逃离埃及建立新国家的能力,因为先知有预测未来的能力,所以备受欺凌的犹太人就会特别信任摩西,能追随摩西完成艰难的冒险,因此实力强劲的互联网公司并不会想成为书中所描述三种类型公司的某一种,而是会成为三者兼备的公司,因为他们都想在自己所涉猎的领域里产生属于自己的大数据时代。拥有自己的大数据时代的公司,就和圣经里的先知一样,它们会影响社会的舆论,引领人们的生活方式以及人们的价值观,这是领袖的能力,而领袖所拥有的财富一定会远远超出用金钱可以衡量到的价值。

  大数据是互联网新的发展方向,是互联网新的制高点。谈到这里,我们或许可以把马云先生那句话改改,也能表达同样的意思:在互联网里大家还未占领PC时代的制高点的时候,移动互联网这个制高点来了,大家还没占领移动互联网制高点时候,大数据的制高点来了。每一个制高点都预示一个新的时代的到来,作为身在追赶优秀公司的企业里的一名员工,我很有一种危机感,我们的追赶不能仅仅着眼于现在看到的方式,而是需要投入一定的精力去迎接新时代的到来,这就好比一群人在赛跑,或许目前大家都是用两条腿在跑,突然来了一个契机,有些人抓住了它,抓住它的人改成了自行车,或者汽车甚至是飞机和你比赛,而你错过了契机,还在用两只腿苦苦支撑自己的比赛,到时候不管你再怎么努力,结果都是悲惨的。

  想获得胜利的互联网公司一定要去抓住这个制高点,不管你愿不愿意,这是新时代的选择,我们需要勇气和信心迎接新的挑战。

推荐阅读