0007-如何迁移Cloudera Manager节点

Fayson的github: https://github.com/fayson/cdhproject
推荐关注微信公众号:“Hadoop实操”,ID:gh_c4c535955d0f,或者扫描文末二维码。

1.概述

本文档讲述如何将Cloudera Manager在Kerberos环境下迁移至新的CM节点。通过本文档,您将学习到以下知识:

1.如何迁移Cloudera Manager节点

2.如何迁移MySQL元数据库

3.如何迁移Kerberos MIT KDC

文档主要分为以下几步:

1.准备Cloudera Manager新节点

2.MariaDB数据库迁移(可选)

3.迁移Kerberos MIT KDC(可选)

4.将原CM节点数据迁移至新节点

5.迁移后集群服务验证

这篇文档将着重介绍Cloudera Manager节点迁移,并基于以下假设:

1.CDH环境已搭建并正常运行

2.旧Cloudera Manager节点包含Cloudera Manager Server(即cloudera-scm-server)服务和Cloudera Management Service服务(Alert Publisher/Event Server/Host Monitor/Reports Manager/Service Monitor)

3.集群已完成MIT Kerberos的配置,并正常使用

4.集群Hadoop服务HBase/Hive/HDFS/Hue/Kafka/Oozie/Spark/Spark2/Yarn/Zookeeper正常运行

以下是本次测试环境,但不是本操作手册的硬限制:

1.操作系统:Redhat7.2

2.CM版本:CM5.11.1

3.CDH版本:CDH5.11.1

4.采用ec2-user对集群进行部署

2.准备Cloudera Manager新节点

2.1.新CM主机前置条件

1.操作系统版本与集群操作系统版本一致(Redhat7.2)
2.关闭防火墙
3.配置时钟同步,根据当前集群时钟同步服务进行配置
4.swap已设置为10
5.关闭透明大页面
6.关闭SElinux
7.配置/etc/hosts文件或者使用DNS服务
8.配置cm和os的yum源
9.创建mysql驱动的软链接

2.2.新主机信息

新主机IP地址:172.31.18.97

新Hostname:ip-172-31-18-97.ap-southeast-1.compute.internal

1.主机操作系统版本



2.防火墙



3.时钟同步

4.swap信息



5.透明大页面

6.SElinux信息

7.host信息

8.Cloudera Manager和OS的yum 源

9.在/usr/share/java目录下创建mysql驱动包软链


2.3.安装Cloudera Manager服务

ec2-user@ip-172-31-18-97 log$ sudo yum  -y install cloudera-manager-server cloudera-manager-agent


安装完成Cloudera Manager后暂时不要启动服务。
注意:新节点的Cloudera Manager版本必须与原Cloudera Manager版本一致;节点上不要安装CDH的其它组件;

2.4.安装MariaDB数据库

由于原CM节点安装有MariaDB数据库,所以在新的CM节点也安装MariaDB数据库进行数据迁移(如果不考虑数据库迁移则可以不用安装)

[ec2-user@ip-172-31-18-97 log]$ sudo yum -y install mariadb-server mariadb-devel

初始化MariaDB数据库

[ec2-user@ip-172-31-18-97 log]# sudo systemctl enable mariadb
[ec2-user@ip-172-31-18-97 log]$ sudo systemctl start mariadb
[ec2-user@ip-172-31-18-97 log]$ sudo /usr/bin/mysql_secure_installation

3.MariaDB数据库迁移

如果不做数据库迁移可不跳过该章节

3.1.备份原MariaDB数据

将需要迁移的mysql整库导出(可根据需要导出需要的库信息)

[root@ip-172-31-25-3 ec2-user]# mysqldump -u root -p -A >oldmysql.dump

3.2.导入备份数据至新库

1.将备份文件拷贝至新mysql服务上,进行数据导入

[root@ip-172-31-18-97 ec2-user]# mysql -u root -p < oldmysql.dump


注意:数据导入成功后,需要在mysql client执行命令:FLUSH PRIVILEGES;

4.迁移Kerberos MIT KDC

4.1.备份原Kerberos数据库

登录到主KDC服务器上,使用kdb5_util命令备份Kerberos数据库及配置文件

[ec2-user@ip-172-31-25-3 ~]$ sudo kdb5_util dump -verbose kerberosdb.dumpfile
HTTP/ip-172-31-18-97.ap-southeast-1.compute.internal@CLOUDERA.COM
HTTP/ip-172-31-19-209.ap-southeast-1.compute.internal@CLOUDERA.COM
….
zookeeper/ip-172-31-28-67.ap-southeast-1.compute.internal@CLOUDERA.COM
[ec2-user@ip-172-31-25-3 ~]$

/etc/krb5.conf
/var/kerberos/krb5kdc/kdc.conf
/var/kerberos/krb5kdc/kadm5.acl


4.2.恢复备份数据至新库

1.在新节点安装Kerberos服务:

yum -y install krb5-server krb5-libs krb5-auth-dialog krb5-workstation

将4.1备份的数据拷贝到新节点上,通过如下操作将数据还原到Kerberos数据库

2.修改krb5.conf文件,将该文件覆盖/etc目录下的krb5.conf

# Configuration snippets may be placed in this directory as well
includedir /etc/krb5.conf.d/

[logging]
 default = FILE:/var/log/krb5libs.log
 kdc = FILE:/var/log/krb5kdc.log
 admin_server = FILE:/var/log/kadmind.log

[libdefaults]
 default_realm = CLOUDERA.COM
 dns_lookup_realm = false
 ticket_lifetime = 24h
 renew_lifetime = 7d
 forwardable = true
 rdns = false
# default_realm = EXAMPLE.COM
 #default_ccache_name = KEYRING:persistent:%{uid}

[realms]
# EXAMPLE.COM = {
#  kdc = kerberos.example.com
#  admin_server = kerberos.example.com
# }
 CLOUDERA.COM = {
  kdc = ip-172-31-18-97.ap-southeast-1.compute.internal
  admin_server = ip-172-31-18-97.ap-southeast-1.compute.internal
 }

[domain_realm]
# .example.com = EXAMPLE.COM
# example.com = EXAMPLE.COM
 .ip-172-31-18-97.ap-southeast-1.compute.internal = CLOUDERA.COM
 ip-172-31-18-97.ap-southeast-1.compute.internal = CLOUDERA.COM

将上述标红部分修改为当前主机ip或者hostname

3.将kdc.conf和kadm5.acl文件拷贝至/var/kerberos/krb5kdc目录下进行覆盖

[ec2-user@ip-172-31-18-97 kerberos_bak]$ sudo scp kadm5.acl kdc.conf /var/kerberos/krb5kdc/

4.恢复kerberos数据库,在krb5kdc和kadmin服务停止的情况下进行如下操作

[ec2-user@ip-172-31-18-97 kerberos_bak]$ sudo kdb5_util create –r CLOUDERA.COM -s
Loading random data
Initializing database '/var/kerberos/krb5kdc/principal' for realm 'CLOUDERA.COM',
master key name 'K/M@CLOUDERA.COM'
You will be prompted for the database Master Password.
It is important that you NOT FORGET this password.
Enter KDC database master key: 
Re-enter KDC database master key to verify: 
[ec2-user@ip-172-31-18-97 kerberos_bak]$
[ec2-user@ip-172-31-18-97 kerberos_bak]$ sudo kdb5_util load kerberosdb.dumpfile

注意:此处需要创建kerberos数据库,然后在做数据导入否则krb5kdc和kadmin服务不能正常启动;

启动krb5kdc和kadmin服务

[ec2-user@ip-172-31-18-97 kerberos_bak]$ sudo systemctl restart krb5kdc
[ec2-user@ip-172-31-18-97 kerberos_bak]$ sudo systemctl stop krb5kdc

验证Kerberos是否正常,使用导入的user_r进行测试

[ec2-user@ip-172-31-18-97 ~]$ kdestroy
[ec2-user@ip-172-31-18-97 ~]$ kinit user_r
Password for user_r@CLOUDERA.COM: 
[ec2-user@ip-172-31-18-97 ~]$ klist
Ticket cache: FILE:/tmp/krb5cc_1000
Default principal: user_r@CLOUDERA.COM

Valid starting       Expires              Service principal
08/09/2017 10:10:44  08/10/2017 10:10:44  krbtgt/CLOUDERA.COM@CLOUDERA.COM
        renew until 08/16/2017 10:10:44

4.3.更新集群的krb5.conf配置

将KDC主服务器上的/etc/krb5.conf文件拷贝至集群中所有的节点,并验证Kerberos是否正常。


5.将原CM节点数据迁移至新节点

5.1.备份原CM节点数据

主要备份CM的监控数据和管理信息,数据目录包括:

/var/lib/cloudera-host-monitor

/var/lib/cloudera-service-monitor

/var/lib/cloudera-scm-server

/var/lib/cloudera-scm-eventserver

/var/lib/cloudera-scm-headlamp


注意:将备份命令压缩传输,防止目录的属主和权限变化

5.2.修改CM的数据库配置信息

修改新CM的数据库配置文件/etc/cloudera-scm-server/db.properties,配置文件内容

[root@ip-172-31-18-97 cloudera-scm-server]# sudo vim db.properties
# Copyright (c) 2012 Cloudera, Inc. All rights reserved.
#
# This file describes the database connection.
#

# The database type
# Currently 'mysql', 'postgresql' and 'oracle' are valid databases.
com.cloudera.cmf.db.type=mysql

# The database host
# If a non standard port is needed, use 'hostname:port'
com.cloudera.cmf.db.host=localhost

# The database name
com.cloudera.cmf.db.name=cm

# The database user
com.cloudera.cmf.db.user=cm

# The database user's password
com.cloudera.cmf.db.password=123456

# The db setup type
# By default, it is set to INIT
# If scm-server uses Embedded DB then it is set to EMBEDDED
# If scm-server uses External DB then it is set to EXTERNAL
com.cloudera.cmf.db.setupType=EXTERNAL

根据自己的配置信息对标红部分进行修改


5.3.CM备份数据导入新节点

将原CM上备份的数据拷贝到新CM节点上



通过如下命令将备份数据还原至对应目录

[ec2-user@ip-172-31-18-97 cmbak]$ sudo tar -zxvf cloudera-host-monitor.tar.gz -C /var/lib/
[ec2-user@ip-172-31-18-97 cmbak]$ sudo tar -zxvf cloudera-service-monitor.tar.gz -C /var/lib/
[ec2-user@ip-172-31-18-97 cmbak]$ sudo tar -zxvf cloudera-scm-server.tar.gz -C /var/lib/
[ec2-user@ip-172-31-18-97 cmbak]$ sudo tar -zxvf cloudera-scm-eventserver.tar.gz -C /var/lib/
[ec2-user@ip-172-31-18-97 cmbak]$ sudo tar -zxvf cloudera-scm-headlamp.tar.gz -C /var/lib/

5.4.更新集群所有节点的CM Server指向

修改集群所有节点上/etc/cloudera-scm-agent/config.ini文件中server_host值为新CM节点的hostname


5.5.将原CM节点的Cloudera Management Service角色迁移至新节点

启动新CM节点的cloudera-scm-server和cloudera-scm-agent服务

[ec2-user@ip-172-31-18-97 253back]# sudo systemctl start cloudera-scm-server
[ec2-user@ip-172-31-18-97 253back]# sudo systemctl start cloudera-scm-agent

注意:在新CM节点上启动cloudera-scm-agent服务后,会将CM节点的信息添加到cm库的HOSTS表中,查看新CM节点对应的HOSTS_ID

登录mysql数据库将,查看cm.HOSTS表中的Cloudera Manager的host信息


未迁移前可以通过CM管理界面看到新CM节点是没有任何角色


通过如下命令,将旧CM的角色迁移至新CM节点上

update ROLES set HOST_ID=11 where NAME like 'mgmt%';

执行操作后,原CM节点的角色被迁移至新CM节点

通过CM管理界面将原CM节点从集群删除

将原CM节点删除

由于集群配置了Kerberos,则需要更新Kerberos的server,如果Kerberos未迁移则不需要考虑此步

如果集群启用Kerberos,则需要为新CM节点生成keytab(如果未启用集群则跳过此步)

通过CM管理界面启动Cloudera Management Service

由于做了数据库迁移,所以需要修改hive/hue/oozie对应的数据库配置(未做数据库迁移可跳过此步)

进行以上修改后重启集群

6.迁移后集群服务验证

原CM的运行界面,历史监控数据

登录CM管理平台,查看集群状态正常

迁移后可以查看正常查看集群的历史监控数据

Hue访问及操作正常

HDFS访问及操作正常

HBase通过hue和shell正常操作

7.常见问题分析

1.问题一

问题现象:

问题原因:

由于cloudera-scm-agent服务于supervisord之间通信异常导致。

解决方法:

将告警节点上的supervisord进程杀死,然后重启agent服务

[root@ip-172-31-28-37 cloudera-scm-agent]# ps -ef |grep supervisord
root     26910     1  0 07:02 ?        00:00:00 /usr/lib64/cmf/agent/build/env/bin/python /usr/lib64/cmf/agent/build/env/bin/supervisord
root     28806 28748  0 07:03 pts/0    00:00:00 grep --color=auto supervisord
[root@ip-172-31-28-37 cloudera-scm-agent]# kill -9 26910
[root@ip-172-31-28-37 cloudera-scm-agent]# systemctl restart cloudera-scm-agent

2.问题二

问题现象:

问题原因:

由于在CM迁移时,未迁移/opt/cloudera/csd目录导致。

解决方法:

将原CM节点上/opt/cloudera/csd目录拷贝至新CM节点对应的目录

重启cloudera-scm-server服务

[ec2-user@ip-172-31-18-97 253back]# sudo systemctl start cloudera-scm-server

3.问题三

问题现象:

Service Monitor启动失败,异常信息如下

问题原因:

由于CM迁移时,/var/lib/cloudera-service-monitor目录的文件缺失导致

解决方法:

将/var/lib/cloudera-service-monitor目录的数据重新覆盖

4.问题四

现象描述:

在集群迁移完成后,集群启动后做了高可用服务的NameNode和ResourceManager服务均不能正常显示主备节点,HDFS的汇总信息无法正常显示

问题原因:

由于集群配置了kerberos,新CM节点未生成keytab导致

解决方法:

将CM节点的所有服务停掉,然后生成该主机的keytab


注意:如果生成keytab异常,请检查KDC Server是否配置正确,KDC服务是否正常。

8.扩展

如何在不停止集群服务的情况下进行Cloudera Manager迁移,需要满足如下条件:

1.新CM节点的hostname与IP地址与旧CM节点一致;
2.如果需要迁移数据库,则新数据库的hostname与IP地址与原数据库一致,且需要将原数据库的数据导入到新库中;
3.如果需要迁移Kerberos MIT KDC,则新MIT KDC所在节点与旧MIT KDC节点的hostname与IP地址一致,且需要将旧MIT KDC数据库数据导入新MIT KDC数据库中;

注意:如果只做第1步操作,则不需要重启hadoop集群相关服务,并且不会影响hadoop集群现有作业;如果进行2、3步操作会对集群作业造成短暂影响,但不需要重启hadoop集群相关服务;


为天地立心,为生民立命,为往圣继绝学,为万世开太平。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。



原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,783评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,360评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,942评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,507评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,324评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,299评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,685评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,358评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,652评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,704评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,465评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,318评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,711评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,991评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,265评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,661评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,864评论 2 335

推荐阅读更多精彩内容