Hadoop Multi Node Cluster的规划如图5-1所示:
由多台电脑组成:有一台主要的电脑master,在HDFS担任NameNode角色,在MapReduce2(YARN)担任ResourceManager角色。
有多台的电脑data1、data2、data3,在HDFS担任DataNode角色,在MapReduce2(YARN)担任NodeManager角色 。
说明表如下:
Hadoop Multi Node Cluster的安装步骤:
1 复制Single Node Cluster到data1
2 设定data1服务器
3 复制data1服务器至data2、data3、master
4 设定data2、data3服务器
5 设定master服务器
6 master连接至data1、data2、data3建立HDFS目录
7 建立与格式化NameNode HDFS 目录
8 启动HadoopMulti Node cluster
9 开启HadoopResource-Manager Web介面
10 开启NameNodeWeb介面
Hadoop Multi Node Cluster的安装命令:
5.1.复制Single NodeCluster到data1
我们将之前所建立的Single Node Cluster VirtualBox hadoop虚拟机复制到data1
5.2.设定data1服务器
Step2.编辑data1固定IP
sudo gedit /etc/network/interfaces输入下列內容
auto eth0 iface eth0 inet dhcp
auto eth1 iface eth1 inet static
address 192.168.56.101
netmask 255.255.255.0
network 192.168.56.0
broadcast 192.168.56.255
Step3.设定hostname
sudo gedit /etc/hostname输入下列內容:
data1
Step4.设定hosts文件
sudo gedit /etc/hosts输入下列內容:
127.0.0.1 localhost 127.0.1.1 hadoop
192.168.56.100 master
192.168.56.101 data1
192.168.56.102 data2
192.168.56.103 data3
Step5.修改core-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml在之间,输入下列內容:
fs.default.name hdfs://master:9000
Step6.修改yarn-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml在之间,输入下列內容:
yarn.resourcemanager.resource-tracker.address master:8025 yarn.resourcemanager.scheduler.address master:8030 yarn.resourcemanager.address master:8050
Step7.修改mapred-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml在之间,输入下列內容:
mapred.job.tracker master:54311
Step8.修改hdfs-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml在之间,输入下列內容:
dfs.replication 3
dfs.datanode.data.dir
file:/usr/local/hadoop/hadoop_data/hdfs/datanode
5.3.复制data1服务器至data2、data3、master
5.4.设定data2、data3服务器
Step2.设定data2固定IP
sudo gedit /etc/network/interfaces输入下列內容
auto eth0 iface eth0 inet dhcp
auto eth1 iface eth1 inet static
address 192.168.56.102
netmask 255.255.255.0
network 192.168.56.0
broadcast 192.168.56.255
Step3.設定data2主机名称
sudo gedit /etc/hostname输入下列內容:
data2
Step6.设定data3固定IP
sudo gedit /etc/network/interfaces输入下列內容
auto eth0 iface eth0 inet dhcp
auto eth1 iface eth1 inet static
address 192.168.56.103
netmask 255.255.255.0
network 192.168.56.0
broadcast 192.168.56.255
Step7.設定data3主机名称
sudo gedit /etc/hostname输入下列內容:
data3
5.5.设定master服务器
Step2.设定master固定IP
sudo gedit /etc/network/interfaces输入下列內容
auto eth0 iface eth0 inet dhcp
auto eth1 iface eth1 inet static
address 192.168.56.100
netmask 255.255.255.0
network 192.168.56.0
broadcast 192.168.56.255
Step3.設定master主机名称
sudo gedit /etc/hostname输入下列內容:
master
Step4.设定hdfs-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml输入下列內容:
dfs.replication 3
dfs.namenode.name.dir file:/usr/local/hadoop/hadoop_data/hdfs/namenode
Step5.设定master文件
sudo gedit /usr/local/hadoop/etc/hadoop/master输入下列內容:
master
Step6.设定slaves文件
sudo gedit /usr/local/hadoop/etc/hadoop/slaves输入下列內容:
data1data2data3
5.6.master连接至data1、data2、data3建立HDFS目录
masterSSH连接至data1并建立HDFS目录
ssh data1
sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown qcl:qcl -R /usr/local/hadoopexitmaster
SSH连接至data2并建立HDFS目录
ssh data2
sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown qcl:qcl -R /usr/local/hadoopexitmaster
SSH连接至data3并建立HDFS目录
ssh data3
sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown qcl:qcl -R /usr/local/hadoop
exit
5.7.建立与格式化NameNode HDFS 目录
Step1 重新建立NameNode HDFS目录
sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
sudo chown -R qcl:qcl /usr/local/hadoop
Step2 格式化NameNode HDFS 目录
hadoop namenode -format
5.8.启动Hadoop
启动start-dfs.sh,再启动 start-yarn.sh
start-dfs.sh start-yarn.sh或
启动全部
start-all.sh查看目前所执行的行程
jps
Hadoop ResourceManager Web页面
http://master:8088/
5.9.开启Hadoop Resource-ManagerWeb介面
开启HDFS Web UI网址
http://master:50070/
安装代码命令来自《Python+Spark 2.0+Hadoop机器学习与大数据实战》
新浪微博BigDataAI的博客