首页 > 技术文章 > Hadoop no.1

weixiaole 2016-02-01 10:56 原文

解决的问题:

  1. 磁盘读取速度慢:磁盘容量大了,将一个大的文件存在磁盘上,但读取速度慢。

      解决方法:hdfs将文件拆开存在不同的节点(datanode)上,namenode记载文件存储的位置(管理datanode)。

         一次写入,多次读取,hdfs同时读取多个datanode上数据,最后将datanode数据组合成该大文件。

         只是增加了数据查找的时间(namenode找datanode数据时间)。

  2. 数据分析速度和正确性:任务的平均分割,多个任务结果的合并和排序等处理。

               map reduce 

  

推荐阅读