hadoop集群搭建

为了能够在生产环境中搭建Hadoop集群，先决定在虚拟机中搭建一个测试环境，跑通整个流程。

一：安装环境

Centos版本：CentOS Linux release 7.3.1611 (Core)
jdk：java-1.8.0-openjdk-1.8.0.121-0.b13.el7_3.x86_64
hadoop版本：hadoop2.7.3
测试环境在Virtual box中进行

二：虚拟机配置

Master1:192.168.31.111
Master2:192.168.31.138
Slave1:192.168.31.137
Slave2:192.168.31.162
slave3:192.168.31.102
为了安置配置的方便，关防所有机子的防火墙,正式的生产环境需要开启防火墙，但是最好设置成内网可以访问，对外只开放必要的端口。

三：配置主机名

每台机子配上主机名（master1,master2,slave1,slave2,slave3）

／／这种方式只能临时生效，机器重启后失效
sudo vim /etc/sysconfig/network
HOSTNAME=master1
sudo hostname master1
／／永久生效需在／etc/hostname中进行配置
sudo vim /etc/hostname

四：配置hosts文件

需要在每台机器上增加其它机器的ip列表

vim /etc/hosts

五：建立hadoop运行帐号

后续的行为都在hadoop用户下操作

adduser hadoop
chown hadoop /home/hadoop
passwd hadoop
给hadoop加权限
chmod -v u+w /etc/sudoers
vim /etc/sudoers
hadoop ALL = (ALL)ALL
chmod -v u-w /etc/sudoers

六：配置ssh免密钥

master:
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
然后复制到其他的slave节点中
scp ~/.ssh/authorized_keys hadoop@slave1:~/
scp ~/.ssh/authorized_keys hadoop@slave2:~/
scp ~/.ssh/authorized_keys hadoop@slave3:~/

在各个slave节点上分别执行：
在终端生成密钥,命令如下(一路点击回车生成密钥)
ssh-keygen -t rsa
将 authorized_keys 文件移动到.ssh 目录
mv authorized_keys ~/.ssh/
修改 authorized_keys 文件的权限,命令如下
cd ~/.ssh
chmod 600 authorized_keys

需保证两台master之间能够互相登陆，各个master能够登陆各个slave
然后在master上测试能否免密码登录各个slave

tips:

DN之间是否需要配置ssh免密钥：
datanode之间是要通信的，但不用ssh登录，只是通过socket进行通信。

七：Hadoop 配置部署

以下先在master1机子上配置后，同步到slave机子，master2的机子后续配置双活才使用，现在不用管

1、下载并解压hadoop

wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
tar -xvzf hadoop-2.7.3.tar.gz

2、配置JAVA_HOME

采用系统自带的OpenJDK

vim /home/hadoop/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
#export JAVA_HOME=${JAVA_HOME} 
改为
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.121-0.b13.el7_3.x86_64/jre

3、配置 core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master1:9000</value>
        </property>
        <property>
                <name>io.file.buffer.size</name>
                <value>131072</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/home/hadoop/tmp</value>
        </property>
</configuration>

4、配置文件系统 hdfs-site.xml

<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/home/hadoop/dfs/name</value>
        </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>master1:9001</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name>dfs.webhdfs.enabled</name>
                <value>true</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/home/hadoop/dfs/data</value>
        </property>
</configuration>

5、配置yarn-site.xml

<property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
        </property>
        <property>
                <name>yarn.resourcemanager.address</name>
                <value>master1:8032</value> 
        </property>
        <property>
                <name>yarn.resourcemanager.scheduler.address</name>
                <value>master1:8030</value> 
        </property>
        <property>
                <name>yarn.resourcemanager.resource-tracker.address</name>
                <value>master1:8035</value> 
        </property>
        <property>
                <name>yarn.resourcemanager.admin.address</name>
                <value>master1:8033</value> 
        </property>
        <property>
              <name>yarn.resourcemanager.webapp.address</name>
                <value>master1:8088</value> 
        </property>

6、配置mapred-site.xml

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

配置

<property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>master1:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>master1:19888</value>
        </property>

6、修改slaves文件

加入slave的列表

slave1
slave2
slave3

7、复制到从节点

将配置好的文件复制到slave中

scp -r hadoop-2.7.3 hadoop@slave1:~/
scp -r hadoop-2.7.3 hadoop@slave2:~/
scp -r hadoop-2.7.3 hadoop@slave3:~/

八：启动 Hadoop 集群

1、配置 Hadoop 启动的系统环境变量（可不做）

vim ~/.bash_profile
在末尾追加
#HADOOP
export HADOOP_HOME=/home/hadoop/hadoop-2.7.3
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
使配置生效
source ~/.bash_profile

2、创建数据目录

在每台机子上创建

cd ~
mkdir dfs
mkdir tmp
cd dfs
mkdir name
mkdir data

3、格式化文件系统

在master1机器上进行格式化，其它slave机子不需要

hdfs namenode -format

没有出现 Exception/Error，则表示格式化成功，不要重复的格式化，会出现问题

4、启动

sbin/start-dfs.sh 
sbin/start-yarn.sh
或者执行
start-all.sh

九、验证

1、web页面查看

http://master1:50070

http://master1:8088/cluster

2、运行 PI 实例检查集群是否成功

hadoop jar ~/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 10 10

出现以下问题（主机名没有配置对）

检查方法：

1、检查网络，防火墙是否有问题，需关闭所有的防火墙
2、查看配置ssh免密钥登录是否有问题

运行出错，子节点暂没互通，但是没有影响最终结果
[image:1640C461-AC15-421D-9284-9A9451AF6910-375-00004392F9C0D359/24D6C078-4254-4B4B-BCCB-7B7B3D8013DA.png]

安装过程中出现的问题

1、宿主机卡死

出现场景：

1、对虚拟机进行格式化的时候，window机器挂了
2、跑mapreduce时，window机器挂了

原因：

虚拟机的设置不对，CPU，磁盘设置过大

解决方法

设置成内存1G，硬盘固定8G

2、只启动了一个实例

原因：

一般情况下，出现这个问题的原因是namenode和datanode的clusterID不一致。namenode每次格式化时，会更新clusterID，但是datanode只会在首次格式化时确定，因此就造成不一致现象。期间尝试过重新格式化磁盘，但中途终止，导致出现此问题

解决方法（两种）

1、修改datanode里VERSION文件的clusterID与namenode的clusterID一致，重新执行start-dfs.sh
2、删除生成的节点hdfs的信息，然后重新格式化

更多详细内容请查看个人博客地址http://xuxping.com/

最后编辑于：2017.12.06 03:57:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,311评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,339评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,671评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,252评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,253评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,031评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,340评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,973评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,466评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,937评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,039评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,701评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,254评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,259评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,497评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,786评论 2赞 345