折腾了四天终于做好了集群,写写总结吧!
部署hadoop集群需要多台服务器,鉴于资源有限,使用近年来比较火的docker来搭建。使用docker虚拟出四个节点
第一步、安装Centos,部署docker:
docker要求centos的版本必须是6.5以上(我使用的是7.3)
(1)安装必要的网络工具:
#yum install-y wget
#yum install-y gcc
#yum install -y vim
#yum install -y lrzsz
#yum -y install openssh-server
#yum -y install openssh-clients
(2)安装docker
#yum install -y docker
(3)启动docker
#service docker start
(4)下载镜像(用版本6而不用版本7是因为7有较严重的bug,所以选用较为稳定的6。docker的镜像本身下载很慢的,所以这里我用的是daocloud的加速器,那下载速度杠杠的!)
#docker pull daocloud.io/centos:6
(5)镜像拉取完成之后启动镜像
#docker run -it -h master --name master daocloud.io/library/centos:6/bin/bash
镜像启动成功,宿主机控制台会直接进入镜像控制台。
返回宿主机控制台:Ctrl + P + Q
进入镜像控制台: docker attach (容器名称或ID)
第二步、制作Hadoop镜像
(1)进入容器控制台,开始搭建Hadoop,在搭建之前一样要先把基础工具给装了,Hadoop是JAVA写的所以JDK先给装上
#wget --no-check-certificate --no-cookies --header"Cookie: oraclelicense=accept-securebackup-cookie"http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz
#mkdir/usr/java
#tar -zxvf jdk-8u131-linux-x64.tar.gz -C/usr/java
(2)修改环境变量
#vim /etc/profile
在最下方加入JAVA配置
export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL
export JAVA_HOME=/usr/java/jdk1.8.0_131
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source一下
#source /etc/profile
(3)配置ssh免密登录
#ssh-keygen -t rsa -P''-f ~/.ssh/id_rsa
#cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
(4)关闭sellinux
#service sshd start
(5)测试一下
#ssh master
(6)如果没什么问题就代表一些准备就绪。完成之后开始下载Hadoop镜像:
#wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.8.3/hadoop-2.8.3.tar.gz
#mkdir /usr/local/hadoop
t#ar -zxvf hadoop-2.8.0.tar.gz -C /usr/local/hadoop
(7)配置环境变量
#vim /etc/profile
在最下方加入Hadoop配置
#export HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.0
#export PATH=$PATH:$HADOOP_HOME/bin
(8)修改Hadoop的配置文件,进入Hadoop的目录
#cd /usr/local/hadoop/hadoop-2.8.0/etc/hadoop/
在hadoop-env.sh 和 yarn-env.sh 在开头添加JAVA环境变量JAVA_HOME
修改hadoop core-site.xml文件(怎样修改百度上都有套路,这里不粘贴了)
修改hdfs-site.xml文件
修改mapred-site.xml文件
修改yarn-site.xml
(9)配置三个salve节点所以在slaves文件中添加
slave1
slave2
slave3
(10)完成之后尝试一下
#ldd /usr/local/hadoop/hadoop-2.8.0/lib/native/libhadoop.so.1.0.0
(11)这时提示GLIBC_2.14 required,centos6的源最高到2.12,这里需要2.14,所以只能手动make安装
wget http://ftp.gnu.org/gnu/glibc/glibc-2.14.tar.gz
tar zxvf glibc-2.14.tar.gz
cd glibc-2.14
mkdirbuild
cd build
../configure --prefix=/usr/local/glibc-2.14
make
make install
ln -sf /usr/local/glibc-2.14/lib/libc-2.14.so /lib64/libc.so.6
(12)完成之后再ldd就没有问题了!接下来就是构建上面做的所有操作,将其变成一个镜像以便复用,先Ctrl+p和Ctrl+q返回宿主机控制台然后输入命令:
docker inspect --format='{{.NetworkSettings.IPAddress}}' master
接下来逐个启动镜像
docker stop master
docker rm master
docker run -it -p 50070:50070 -p 19888:19888 -p 8088:8088 -h master --name master tsk/hadoop /bin/bash
docker run -it -h slave1 --name slave1 tsk/hadoop /bin/bash
docker inspect --format='{{.NetworkSettings.IPAddress}}' slave1
docker run -it -h slave2 --name slave2 tsk/hadoop /bin/bash
docker inspect --format='{{.NetworkSettings.IPAddress}}' slave2
docker run -it -h slave3 --name slave3 tsk/hadoop /bin/bash
docker inspect --format='{{.NetworkSettings.IPAddress}}' slave3
(13)然后attach到每个节点上面source一下配置hosts,启动sshd,并修改/etc/hosts中的ip映射文件,完成之后开始准备启动Hadoop
/etc/hosts文件(四台机器都要这样配置)
182.17.0.2 master
182.17.0.3 slave1
182.17.0.4 slave2
182.17.0.5 slave3
(14)重新编译一下环境变量
source /etc/profile
(15)启动hadoop
hadoop namenode -format
/usr/local/hadoop/hadoop-2.8.0/sbin/start-all.sh