首页 > 技术文章 > 大数据

xkdn 2020-03-29 21:02 原文

数据的存储  计算(分布式存储,分布式计算)

Hadoop:基于java开发:

(体系结构,原理,编程)HDFS(分布式存储)MAPREDUCE(计算)

数据分析引擎HIVE PIG

数据采集引擎:sqoop  flume

管理工具: hue:WEB管理工具

zookeeper:实现HAdoop的HA

OOZIE:工作流引擎

 

Spark:基于sclla语言,SCALA基于java语言

scala语言

spark core:数据计算,基于内存数据计算

spark sql--类似于oracle中的sql语句

spark streaming:进行实时计算(流式计算)

apache storm:实时计算

NOSQL:REDIS基于内存的数据库

 GFS:google file system

分布式系统:网盘

GFS:没有硬盘,数据只存在内存中,提高冗余度,

HDFS默认为3(同一数据保存3份)

水平复制:(提高效率)

上传或下载:数据块为单位,HADOOP1.X:64m,2.X:128m

MAPREDUCE:把大任务拆分成小任务,再汇总

 

推荐阅读