Hadoop集群介绍
- Hadoop集群包括两个集群: HDFS集群,YARN集群
- 两个集群逻辑上分离,通常物理上在一起
- 两个集群都是标准的主从架构集群
- 逻辑上分离
两个集群之间没有依赖,互不影响- 物理上在一起
某些角色进程往往部署在同一台物理五服务器上- MapReduce集群
MapReduce集群是计算框架,代码层面的组件,没有集群之说
HDFS集群(分布式存储)
1.主角色: NameNode
2.从角色: DataNode
3.主角色辅助角色: SecondaryNameNode
YARN集群(资源管理,调度)
1.主角色: ResourceManager
2.从角色: NodeManager
Hadoop集群简介
集群部署方式
Hadoop部署方式分三种:
- standalone mode(独立模式)
独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。- Pseudo-Distributed mode(伪分布式模式)
伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。Cluster mode(群集模式)
集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。
Hadoop源码编译
- 安装包、源码包下载地址
- 为什么要重新编译Hadoop源码?
匹配不同操作系统本地库环境,Hadoop某些操作比如压缩、IO需要调用系统本地库(.so|.dll)
修改源码、重构源码- 如何编译Hadoop
源码包根目录下文件:BUILDING.txt
详细步骤参考附件资料- 提供编译好的Hadoop安装包私信我
hadoop-3.1.4-bin-snappy-CentOS7.tar.g
集群角色规划-Step1:集群角色规划
- 角色规划的准则
1.根据软件工作特性和服务器硬件资源情况合理分配
2.比如依赖内存工作的NameNode是不是部署在大内存机器上?角色规划注意事项
1.资源上有抢夺冲突的,尽量不要部署在一起
2.工作上需要互相配合的。尽量部署在一起
集群安装-Step2:服务器基础环境准备
- 主机名(3台机器)
hostnamectl set-hostname 主机名
bash
- Host映射(3台机器)
vim /etc/hosts
- 防火墙关闭(3台机器)