hadoop-HDFS集群搭建伪分布式/分布式模式

hadoop-HDFS集群搭建伪分布式模式

官网导读

http://hadoop.apache.org/docs/r2.6.5/

支持最好的平台：GNU/Linux

依赖的软件：Java，ssh：免密登录，远程连接，远程登录远程执行文件,ssh在远程登陆的情况下，不会加载etc下的配置文件，可以

 ssh root@远程地址 'source /etc/profile ; 命令'

部署模式：

伪分布式，分布式

基础设施

操作系统，环境，网络，必须软件

搭建步骤在下面，这里主要是每个步骤的原理

1.设置IP及主机名

不必多说

2.关闭防火墙&selinux

3.设置hosts映射

保证可以通过设置的名称访问其他主机

4.生成公钥，私钥，只要一台机器有另一台机器的公钥文件，另一台机器就可以免密登录这台机器

部署配置

修改hadoop-env.sh

背身文件自带export JAVA_HOME=${JAVA_HOME}

因为远程加载不能加载环境变量，所以要改为绝对路径

export JAVA_HOME=/usr/java/default

修改core-site.xml

 <value>hdfs://node01:9000</value>

说明了namenode的位置

修改hdfs-site.xml

 <property>
     <name>dfs.replication</name>
         <value>3</value>
     </property>
 <property>
     <name>dfs.namenode.name.dir</name>
         <value>/var/bigdata/hadoop/local</value>//说明元数据的存放位置
 </property>
 <property>
     <name>dfs.namenode.secondary.http-address</name>
     <value>node01:50090</value>//控制角色的启动secondary是帮助namenode合并滚动
 </property>
 <property>
     <name>dfs.namenode.checkpoint.dir</name>
     <value>node01:50090</value>//控制角色的启动secondary是检查点的路径
 </property>

3说明有3个节点

修改slaves

放datanode的名称

初始化&运行

namenode格式化元数据 千万不要重复操作，出错了除外

 hdfs namenode -format

创建目录，并初始化一个空的fsimage文件

VERSION文件-》CID（集群id）

datanode格式化

 start-dfs.sh

命令行使用

 hdfs dfs   //查看支持的hadoop命令
 hdfs dfs -mkdir /user/root
 hdfs dfs -put hadoop-2.6.5 /user/root

hadoop-HDFS集群搭建伪分布式/分布式模式

hadoop-HDFS集群搭建伪分布式模式

基础设施

初始化&运行

命令行使用

推荐阅读