实操 - Centos7虚拟机搭建Hadoop集群环境

一、安装虚拟机

点击从光盘或映像中安装，选择创建虚拟机的镜像

选择创建虚拟机的镜像.png

继续下一步，点击自定设置，修改虚拟机的名称

自定设置.png

打开虚拟机设置菜单

打开虚拟机设置菜单.png
点击网络适配器

确保虚拟机与宿主机网络共享

确保虚拟机与宿主机网络共享.png

然后正式开始运行安装虚拟机，配置语言、系统安装位置、网络和主机名

配置以太网.png

修改主机名称

修改主机名称.png

设置root密码后，按提示重启后，系统安装成功。

设置root密码.png

二、虚拟机初始化配置

系统重启后，需要登录需要输入用户名：root，以及刚才配置等root密码。

可以用ifconfig命令查看当前机器的IP：

ifconfig

如果虚拟机新安装的centos没有安装ifconfig命令报错，可以执行如下命令：

yum -y install net-tools

如果显示mirrors无法连接，则可能是网络没有启用联网功能，需要执行以下命令：

sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

初始信息如下：

#网络类型为以太网
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
#是否自动获取IP(none和static代表静态手动分配、dhcp代表自动获取IP地址)
BOOTPROTO=dhcp
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=44cea-dcf6-3d3c-bd4e-98e47d9ffcy9
#网卡设备名
DEVICE=ens33
#是否随网络服务启动，ens33生效
ONBOOT=no

修改配置ONBOOT=no----->ONBOOT=yes即启动联网功能。
另外，我们在上述文件配置静态IP需要做如下修改和添加：

BOOTPROTO=static
ONBOOT=yes
#IP地址
IPADDR=192.168.2.144
#子网掩码
NETMASK=255.255.255.0
#网关
GATEWAY=192.168.2.1
#DNS
DNS1=114.114.114.114

保存后，输入以下命令激活，重启网络服务：

service network restart

之后即可执行ifconfig命令了。

使用centos注意关闭防火墙：

#暂时关闭防火墙
systemctl stop firewalld
#永久关闭防火墙
systemctl disable firewalld

Hadoop环境搭建步骤

一、集群规划

假设我们有5台Centos系统机器，一台作为Master，四台作为slaves。五台机器处于同一局域网内。

假设我们规划了五台机器的名称，并获得其IP如下：

master 172.18.0.5
slave1 172.18.0.1
slave2 172.18.0.2
slave3 172.18.0.3
slave4 172.18.0.4
为了更好的在Shell中区分这五台主机，我们分别在五台主机中执行如下命令：

sudo vim /etc/hostname

master的/etc/hostname添加：

master

同样，slave1的/etc/hostname添加：

slave1

所有5台机器都变更后，添加同样的配置：

sudo vim /etc/hosts

配置如下：

127.0.0.1 localhost
172.18.0.5 master 
172.18.0.1 slave1
172.18.0.2 slave2
172.18.0.3 slave3
172.18.0.4 slave4

重启系统后，hostname才会更新：

sudo reboot

二、安装和配置ssh

首先，五台电脑分别运行如下命令，测试是否能连接到本地localhost:

ssh localhost

登陆成功会显示如下结果：

Last login: Mon Feb 29 18:29:55 2016 from ::1
如果不能登陆本地，请运行如下命令，安装openssh-server，并生成ssh公钥。

sudo yum -y install openssh-server
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

保证所有电脑都能连同本地localhost后，还需要让master能免密登陆slaves。在master执行如下命令，将master的id_rsa.pub传送给所有slaves：

scp ~/.ssh/id_rsa.pub root@slave1:/home/
scp ~/.ssh/id_rsa.pub root@slave2:/home/
scp ~/.ssh/id_rsa.pub root@slave3:/home/
scp ~/.ssh/id_rsa.pub root@slave4:/home/

之后在所有slaves电脑上执行以下命令，查看目录中是否有id_rsa.pub存在：

ls ~

接着，在所有slaves电脑上执行以下命令，将master公钥添加到对应节点上：

cat /home/id_rsa.pub >> ~/.ssh/authorized_keys
rm /home/id_rsa.pub

如果五台机器上用户名都一样，例如都是user，则master可以登陆任何slaves:

ssh slave1

如果五台机器用户名不一样，还需要在master修改~/.ssh/config文件，如果没有该文件，自己创建文件。

Host master
    user XXX
Host slave1
    user XXX

然后再免密登陆：

ssh slave1

三、JDK安装

五台机器都按以下方式安装JDK：
下载JDK，解压：

tar -zxvf jdk-7u79-linux-x64.tar.gz -C /home/

设置环境变量：

vim ~/.bash_profile
export JAVA_HOME=/home/jdk1.7.0_79
export PATH=$JAVA_HOME/bin:$PATH
# Setting PATH for Hadoop
export HADOOP_HOME=/home/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source .bash_profile

验证java是否配置成功:

java -version

四、安装hadoop, 填写配置文件

下载好的hadoop安装包文件解压到目标目录下，hadoop根目录下有以下几个重要的目录：

sbin：启动或停止hadoop相关服务的脚本。
bin：对hadoop相关服务(HDFS、YARN)进行操作的脚本。
etc：hadoop的配置文件目录。
share：hadoop的依赖jar包和文档。
lib：hadoop的本地库。
我们填写的配置文件都位于hadoop/etc目录下。

hdfs相关的配置文件

以下配置文件是和hdfs组件相关的，需要填好才能启用hdfs的相关功能：

/etc/hadoop/hadoop-env.sh文件里需要给hadoop配置java环境：

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home

/etc/hadoop/core-site.xml文件用于配置hadoop运行时产生的临时数据的存储目录；以及hdfs的namenode的地址和端口号。

<configuration>
  <property>
    <!--hadoop临时目录-->
    <name>hadoop.tmp.dir</name>
    <value>file:/data/hadoop/tmp</value>
    <description>默认存在/tmp目录</description>
  </property>
  <property>
    <!--HDFS NameNode地址-->
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
    <description>指定hdfs的主节点</description>
  </property>
</configuration>

/etc/hadoop/hdfs-site.xml文件需要配置hdfs上数据的副本系数(包含原数据)、namenode和datanode数据存放的目录和secondarynamenode节点。

<configuration>
  <property>
    <!--HDFS副本数-->
    <name>dfs.replication</name>
    <value>2</value>
    <description>指定hdfs的副本数</description>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/hadoop/hadoop/tmp/dfs/name</value>
    <description>指定namenode数据的目录</description>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/hadoop/hadoop/tmp/dfs/data</value>
    <description>指定datanode数据的目录</description>
  </property>
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>master:9001</value>
    <description>指定secondarynamenode的节点</description>
  </property>
</configuration>

/etc/hadoop/workers(slaves)，填写从属节点的主机名：

slave1
slave2
slave3
slave4

这个配置文件用于记录这个集群的所有datanode的主机名。

yarn相关的配置文件

以下配置文件是和yarn组件相关的，需要填好才能启用yarn的相关功能：

/etc/hadoop/mapred-site.xml文件指定mapreduce运行在什么地方：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    <description>指定MapReduce运行在yarn上</description>
  </property>
  <property>
    <name>mapreduce.reduce.shuffle.memory.limit.percent</name>
    <value>0.10</value>
  </property>
</configuration>

/etc/hadoop/yarn-site.xml文件指定yarn的主节点等信息：

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
    <description>指定yarn的主节点</description>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>允许MapReduce运行在yarn上</description>
  </property>
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
  </property>
</configuration>

四、启动hdfs

在/bin目录下执行以下命令，格式化hdfs的文件系统，安装后执行一次即可：

hdfs namenode -format

格式化成功后，配置文件设置的tmp目录下会出现临时数据的目录结构。
在/sbin目录下执行以下命令即可启动hdfs服务：

./start-dfs.sh

执行完后，在任意目录下输入以下命令可以查看当前启动了哪些进程:

jps

如果上述命令可以查看到这个进程，则可以在浏览器中查看hdfs情况，这一步不同版本端口不太一样：

2.x：http://localhost:50070
3.x：http://localhost:9870
在/sbin目录下执行以下命令即可启动hdfs服务：

./stop-dfs.sh

五、启动yarn

在/sbin目录下执行以下命令，执行RM和NM进程：

sbin/start-yarn.sh

jps命令后可以查看到多了rm和nm的进程。或者在浏览器中键入以下地址，可以查看到RM的状况：http://localhost:8088
以Hadoop提供的测试文件/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar为例：

hadoop jar hadoop-mapreduce-examples-2.7.7.jar pi 2 3

在/sbin目录下执行以下命令，关闭RM和NM进程：

sbin/stop-yarn.sh

HDFS的使用

将hadoop的bin和sbin命令目录放到环境变量中，这样就可以在所有目录下使用命令

# Setting PATH for Hadoop
export HADOOP_HOME=/home/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

shell常用命令的使用

#确保有dataname开启的情况下可以使用以下命令，将文件上传到hdfs文件系统中。
hadoop fs -put <文件路径> <目标路径>
#text查看hdfs中文本内容
hadoop fs -text <hdfs中文本路径>
#mkdir在hdfs中创建目录
hadoop fs -mkdir <hdfs中文本路径>
#在hdfs中递归创建目录
hadoop fs -mkdir -p <hdfs中文本路径>
#从hdfs中获取文件
hadoop fs -mkdir -p <hdfs中文本路径>
#rm从hdfs中获取文件
hadoop fs -rm <hdfs中文本路径>

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342