Hadoop完全分布式环境搭建

暂无完工，请不要参考

分析：

准备工作

安装Hadoop

配置集群

群起并测试集群

准备工作

准备3台虚拟机

准备3台客户机，分别关闭防火墙，配置静态IP，配置不同的主机名，开启时间自动网络同步。
我这里设置3台客户机的主机名分别为hadoop1、hadoop2和Hadoop3。分别创建用户hadoop。
配置主机名和IP的映射。

vim /etc/hosts

添加如下内容，分别是三台虚拟机的IP和主机名。

192.168.6.100 hadoop1
192.168.6.101 hadoop2
192.168.6.102 hadoop3

配置SSH免密登录

SSH无密登录配置

编写集群分发脚本xsync

集群分发脚本xsync

编写命令群发脚本

集群分发脚本xsync

安装Hadoop

安装JDK
安装Hadoop
1. 把Hadoop包上传到安装目录，我们这里选择/usr/local作为安装目录。
2. 解压安装文件到此目录
3. 将Hadoop添加到环境变量
```
export HADOOP_HOME=/usr/local/hadoop-2.10.0
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
```
1. 测试是否安装成功
```
hadoop version
```

Hadoop目录结构
1.查看Hadoop目录结构

[hadoop@hadoop1 hadoop-2.10.0]$ ll
总用量 128
drwxr-xr-x. 2 12334 systemd-journal    194 10月 23 2019 bin
drwxr-xr-x. 3 12334 systemd-journal     20 10月 23 2019 etc
drwxr-xr-x. 2 12334 systemd-journal    106 10月 23 2019 include
drwxr-xr-x. 3 12334 systemd-journal     20 10月 23 2019 lib
drwxr-xr-x. 2 12334 systemd-journal    239 10月 23 2019 libexec
-rw-r--r--. 1 12334 systemd-journal 106210 10月 23 2019 LICENSE.txt
-rw-r--r--. 1 12334 systemd-journal  15841 10月 23 2019 NOTICE.txt
-rw-r--r--. 1 12334 systemd-journal   1366 10月 23 2019 README.txt
drwxr-xr-x. 3 12334 systemd-journal   4096 10月 23 2019 sbin
drwxr-xr-x. 4 12334 systemd-journal     31 10月 23 2019 share

2、重要目录

（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

（4）sbin目录：存放启动或停止Hadoop相关服务的脚本

（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

集群配置

集群部署规划

	hadoop1	hadoop2	hadoop3
HDFS	DataNode	NameNode、DataNode	SecondaryNameNode、DataNode
YARN	NodeManager、ResourceManager	NodeManager	NodeManager

这里主要考虑负债均衡，分布启动这些进程。

因为后面群起集群的时候，只能在配置了ResourceManager节点的主机才能群起成功ResourceManager，我的SHH免密登录和群起脚本、群发脚本等都放在hadoop1主机，所以把ResourceManager进程也放在hadoop1主机。

配置集群

hadoop的默认配置文件在/usr/local/hadoop-2.10.0/etc/hadoop
目录下。

核心配置文件

配置core-site.xml

vim core-site.xml

在该文件中编写如下配置

<!-- 指定HDFS中NameNode的地址 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop2:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/data</value>
</property>

HDFS配置文件

配置hdfs-site.xml

vim hdfs-site.xml

在该文件中编写如下配置

<!-- 指定Hadoop副本备份最大数量 -->
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop3:50090</value>
</property>

YARN配置文件

配置yarn-site.xml

vim yarn-site.xml

在该文件中增加如下配置

<!-- reducer获取数据的方式 -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop1</value>
</property>

MapReduce配置文件

配置mapred-site.xml

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

在该文件中增加如下配置

<!-- 指定mr运行在yarn上 -->
<property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
</property>

3．在集群上分发配置好的Hadoop配置文件

xsync.sh /usr/local/hadoop-2.10.0

4．查看文件分发情况

 cat /usr/local/hadoop-2.10.0/etc/hadoop/core-site.xml

群起集群

配置slaves

vim /usr/local/hadoop-2.10.0/etc/hadoop/slaves

在该文件中增加如下内容：

hadoop1
hadoop2
hadoop3

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

启动集群
1. 如果集群是第一次启动，需要格式化NameNode
```
hdfs namenode -format
```
1. 启动HDFS
```
start-dfs.sh
```
1. 启动YARN
```
start-yarn.sh
```
注意：NameNode和ResourceManger如果不是同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。
1. web端查看SecondaryNameNode
（a）浏览器中输入：http://hadoop104:50090/status.html

（b）查看SecondaryNameNode信息，如图2-41所示。
集群基本测试
1. 上传文件到集群
上传小文件
```
hadoop fs -mkdir -p /user/atguigu/input
hadoop fs -put wcinput/wc.input /user/atguigu/input
```
上传大文件
```
bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz  /user/atguigu/input
```
1. 上传文件后查看文件存放在什么位置
（a）查看HDFS文件存储路径
```
pwd
```
（b）查看HDFS在磁盘存储文件内容
```
cat blk_1073741825
```
拼接

-rw-rw-r--. 1 atguigu atguigu 134217728 5月  23 16:01 blk_1073741836
-rw-rw-r--. 1 atguigu atguigu   1048583 5月  23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 atguigu atguigu  63439959 5月  23 16:01 blk_1073741837
-rw-rw-r--. 1 atguigu atguigu    495635 5月  23 16:01 blk_1073741837_1013.meta
[atguigu@hadoop102 subdir0]$ cat blk_1073741836>>tmp.file
[atguigu@hadoop102 subdir0]$ cat blk_1073741837>>tmp.file
[atguigu@hadoop102 subdir0]$ tar -zxvf tmp.file

下载

hadoop fs -get /user/atguigu/input/hadoop-2.7.2.tar.gz ./

集群启动/停止方式总结

各个服务组件逐一启动/停止

分别启动/停止HDFS组件

hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode

启动/停止YARN

yarn-daemon.sh  start / stop  resourcemanager / nodemanager

各个模块分开启动/停止（配置ssh是前提）常用
1. 整体启动/停止HDFS
```
start-dfs.sh   /  stop-dfs.sh
```
1. 整体启动/停止YARN
```
start-yarn.sh  /  stop-yarn.sh
```