三、Hadoop2.x分布式集群配置-取消授权
1.继续配置 Hdfs-site.xml 与 core-site.xml
1.Hdfs-site.xml
http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
配置如下(false代表取消授权)
2.core-site.xml
http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/core-default.xml
第二个改的是用户是kfk
第三个更改的是namenide存放的依赖主目录
2.HDFS重新格式化创建目录和文件
1.创建
mkdir -p data/tmp
2.查看目录下文件
cd data /tmp
pwd
至此,服务配置完成
四、分发到其他各个机器节点
1.先删除机器二和机器三的hadoop
rm -rf hadoop-2.5.0/
2.重新分发
scp -r hadoop-2.5.0/ kfk@bigdata-pro02.kfk.com:/opt/modules/
scp -r hadoop-2.5.0/ kfk@bigdata-pro03.kfk.com:/opt/modules/
3.检验(在第二台和第三台)
more etc/hadoop/core-site.xml
检验无错误,配置正确
五、HDFS启动集群运行测试
1.首先初始化配置
1.把之前所有的服务全部停掉
2.初始化
bin/hdfs namenode –format
2.启动各个节点机器服务:
1.Namenode-1
sbin/hadoop-daemon.sh start namenode
2.Datanode-123
sbin/hadoop-daemon.sh start datanode
3.Resourcemanager-1
sbin/yarn-daemon.sh start resourcemanager
4.Nodemanger-123
sbin/yarn-daemon.sh start nodemanager
5.Jobhistoryserver historyserver-1
mapreduce日志必须开启
sbin/mr-jobhistory-daemon.sh start historyserver
6.创建了一个名字为kfk的目录
bin/hdfs dfs -mkdir -p /user/kfk/data/
3.查看 hdfs 页面和 yarn 页面
1.hdfs
http://bigdata-pro01.kfk.com:50070/
2.yarn
http://bigdata-pro01.kfk.com:8088/
六、YARN运行MapReduce程序测试集群
1.在目录中上传文件wc.input
bin/hdfs dfs -put /opt/datas/wc.input /user/kfk/data/
2.创建数据输出目录
bin/hdfs dfs -mkdir -p /user/kfk/data/output/
3.启动 mapreduce服务
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/kfk/data/wc.input /user/kfk/data/output/1
重点重点重点
如果你之前未将三个虚拟机的时间同步是不能出结果的
所以我们先结合后一个课程: 配置集群内机器时间同步(使用Linux ntp进行)来学习
七、配置集群内机器时间同步(使用Linux ntp进行)
1.在pro01虚拟机上配置ntp
1.sudo rpm -qa|grep ntp
2.sudo service ntpd start
3.sudo chkconfig ntpd on
4.sudo vi /etc/ntp.conf
1.更改的是本机的节点
2.给第二个红框里的每一行加上注释#
3.取消第三个框框里面 sever&fudge的注释#
保存退出
4.sudo service ntpd restart -重启服务
2.同步三台机器时间
第一台pro01:手动配置时间
第二台和第三台pro02\pro03:
1.第一种方法(手动同步)
sudo /usr/sbin/ntpdate bigdata-pro01.kfk.com
缺点:不方便,不准确
2.第二种方法(配置一个脚本)
配置脚本
1.which ntpdate:寻找到ntpdate的目录
2.crontab -e:配置脚本
内容:0-59/10 * * * * /usr/sbin/ntpdate bigdata-pro01.kfk.com
保存退出,两台都如此配置
okok这次我们再次启动mapreduce服务
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/kfk/data/wc.input /user/kfk/data/output/7.2
显示如下则为配置成功
1.查看yarn页面:唯一成功的一次,嘿嘿!
http://bigdata-pro01.kfk.com:8088/cluster
2.查看HDFS页面:没同步时间之前是不能出现文件的
http://bigdata-pro01.kfk.com:50070/explorer.html#/user/kfk/data/output/7.2
3.接下来我们做一个text测试
bin/hdfs dfs -text /user/kfk/data/output/7.2/par*
返回的是对我们最开始编辑的wc.input文件的对数据的个数的统计
由此,我们的hadoop分布式集群的部署基本完成
八、配置集群中主节点到各个机器的SSH无密钥登录
无密银配置主要为转移不需要输入密码,即可
scp -r hadoop-2.5.0/ kfk@bigdata-pro02.kfk.com:/opt/modules/
scp -r hadoop-2.5.0/ kfk@bigdata-pro03.kfk.com:/opt/modules/
1.配置目录
ls -a
cd .ssh/
2.HDFS ssh无秘钥登录
主机1:
清空.ssh目录
主节点 NameNode
1)生成一对公钥与秘钥
ssh-keygen –t rsa
2)拷贝公钥到各个机器上
ssh-copy-id bigdata-pro01.kfk.com
ssh-copy-id bigdata-pro02.kfk.com
ssh-copy-id bigdata-pro03.kfk.com
3)测试ssh连接
ssh bigdata-pro01.kfk.com
ssh bigdata-pro02.kfk.com
ssh bigdata-pro03.kfk.com
4)测试HDFS
sbin/stop-dfs.sh
5)启动HDFS
sbin/start-dfs.sh
3.yarn ssh无秘钥登录
主机2:
清空.ssh目录
主节点 Resourcemanager
1)生成一对公钥与秘钥
ssh-keygen -–t rsa
2)拷贝公钥到各个机器上
ssh-copy-id bigdata-pro01.kfk.com
ssh-copy-id bigdata-pro02.kfk.com
ssh-copy-id bigdata-pro03.kfk.com
3)测试ssh连接
ssh bigdata-pro01.kfk.com
ssh bigdata-pro02.kfk.com
ssh bigdata-pro03.kfk.com
4)测试Yarn
sbin/stop-yarn.sh
5)启动Yarn
sbin/stsrt-yarn.sh