首页 > 技术文章 > hadoop-HDFS集群搭建伪分布式/分布式模式

Liguangyang 2020-10-28 17:20 原文

hadoop-HDFS集群搭建伪分布式模式

官网导读

http://hadoop.apache.org/docs/r2.6.5/

支持最好的平台:GNU/Linux

依赖的软件:Javassh:免密登录,远程连接,远程登录远程执行文件,ssh在远程登陆的情况下,不会加载etc下的配置文件,可以

 ssh root@远程地址 'source /etc/profile ; 命令'

部署模式:

伪分布式,分布式

基础设施

操作系统,环境,网络,必须软件

搭建步骤在下面,这里主要是每个步骤的原理

1.设置IP及主机名

不必多说

2.关闭防火墙&selinux

3.设置hosts映射

保证可以通过设置的名称访问其他主机

4.生成公钥,私钥,只要一台机器有另一台机器的公钥文件,另一台机器就可以免密登录这台机器

部署配置

修改hadoop-env.sh

背身文件自带export JAVA_HOME=${JAVA_HOME}

因为远程加载不能加载环境变量,所以要改为绝对路径

export JAVA_HOME=/usr/java/default

修改core-site.xml

 <value>hdfs://node01:9000</value>

说明了namenode的位置

修改hdfs-site.xml

 <property>
  <name>dfs.replication</name>
  <value>3</value>
     </property>
 <property>
  <name>dfs.namenode.name.dir</name>
    <value>/var/bigdata/hadoop/local</value>//说明元数据的存放位置
 </property>
 <property>
  <name>dfs.namenode.secondary.http-address</name>
     <value>node01:50090</value>//控制角色的启动secondary是帮助namenode合并滚动
 </property>
 <property>
  <name>dfs.namenode.checkpoint.dir</name>
     <value>node01:50090</value>//控制角色的启动secondary是检查点的路径
 </property>

3说明有3个节点

修改slaves

放datanode的名称

初始化&运行

namenode格式化元数据 千万不要重复操作,出错了除外

 hdfs namenode -format

创建目录,并初始化一个空的fsimage文件

VERSION文件-》CID(集群id)

datanode格式化

 start-dfs.sh

命令行使用

 hdfs dfs   //查看支持的hadoop命令
 hdfs dfs -mkdir /user/root
 hdfs dfs -put hadoop-2.6.5 /user/root

 

推荐阅读