hadoop-HDFS集群搭建伪分布式模式
官网导读
http://hadoop.apache.org/docs/r2.6.5/
支持最好的平台:GNU/Linux
依赖的软件:Java,ssh:免密登录,远程连接,远程登录远程执行文件,ssh在远程登陆的情况下,不会加载etc下的配置文件,可以
ssh root@远程地址 'source /etc/profile ; 命令'
部署模式:
伪分布式,分布式
操作系统,环境,网络,必须软件
搭建步骤在下面,这里主要是每个步骤的原理
1.设置IP及主机名
不必多说
2.关闭防火墙&selinux
3.设置hosts映射
保证可以通过设置的名称访问其他主机
4.生成公钥,私钥,只要一台机器有另一台机器的公钥文件,另一台机器就可以免密登录这台机器
部署配置
修改hadoop-env.sh
背身文件自带export JAVA_HOME=${JAVA_HOME}
因为远程加载不能加载环境变量,所以要改为绝对路径
export JAVA_HOME=/usr/java/default
修改core-site.xml
<value>hdfs://node01:9000</value>
说明了namenode的位置
修改hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/var/bigdata/hadoop/local</value>//说明元数据的存放位置
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node01:50090</value>//控制角色的启动secondary是帮助namenode合并滚动
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>node01:50090</value>//控制角色的启动secondary是检查点的路径
</property>
3说明有3个节点
修改slaves
放datanode的名称
初始化&运行
namenode格式化元数据 千万不要重复操作,出错了除外
hdfs namenode -format
创建目录,并初始化一个空的fsimage文件
VERSION文件-》CID(集群id)
datanode格式化
start-dfs.sh
命令行使用
hdfs dfs //查看支持的hadoop命令
hdfs dfs -mkdir /user/root
hdfs dfs -put hadoop-2.6.5 /user/root