2020-11-06

蓝鲸平台日常维护中遇到的问题

   蓝鲸平台日常维护中遇到的问题【摘要】在蓝鲸平台的日常维护过程中,会遇到一些平台异常的问题,这些问题有一些是常见的,例如bkdata进程异常导致监控数据未上报,有一些是特定情况下遇到的,但经过排查可以解决的,希望通过整理之前处理过的排错,对以后遇到类似的问题有帮助,能够迅速排查解决。

【正文】一   、cmdb1.1

cmdb重启失败【问题描述】重启cmdb所在机器后,发现启动cmdb有报错,出现cmdb_adminserver:ERROR(spawn error) 【排查】查日志发现连接MongoDB失败,使用bk_cmdb用户也无法登陆到MongoDB 【解决方法】在MongoDB里重新对bk_cmdb用户进行授权,授权完之后,再重新启动cmdb1)、重新授权

#以管理员身份登陆MongoDB

# source /data/install/utils.fc

# mongo -u $MONGODB_USER -p

$MONGODB_PASS --port $MONGODB_PORT --authenticationDatabase admin

#查看有哪些库

# show dbs;

#进入cmdb这个库

# use cmdb;

#更新bk_cmdb用户的密码(密码可以从/data/install/.app.token中查找)

# db.updateUser("bk_cmdb",{pwd:"密码"})

2)、在中控机重启cmdb

# cd /data/install

# ./bkeec stop cmdb

# ./bkeec status cmdb

# ./bkeec start cmdb

# ./bkeec status cmdb

1.2、

cmdb访问报404【问题描述】cmdb所在机器意外重启之后,访问cmdb出现404的问题。 【排查】检查服务都是正常的,查看cmdb_adminserver的日志之后,发现无法解析zk.service.consul,检查dns后,发现首选dns不是127.0.0.1了。 【解决方法】修改/etc/resolv.conf的nameserver,确保 /etc/resolv.conf 里第一个nameserver是 127.0.0.1,而且option选项不能有rotate。     1.3、SaaS访问异常【问题描述】登录到蓝鲸后,打开SaaS均出现”应用出现异常”的报错。 【排查】1)、在出现异常的时间段内,检查蓝鲸进程运行情况,运行状态显示为RUNNING;                 2)、对CMDB服务进行排查,通过查看cmdb_apiserver.stdout.log和cmdb的nginx访问日志发现,连接cmdb的esb-api接口服务出现timeout,初步怀疑是由于api服务连接不上导致问题的出现。 【解决方法】重启cmdb服务后,该问题解决,SaaS恢复正常访问。在中控机重启cmdb

# cd /data/install

# ./bkeec stop cmdb

# ./bkeec status cmdb

# ./bkeec start cmdb

# ./bkeec status cmdb

二   、蓝鲸监控2.1

组件监控【问题描述】配置组件监控,保存时,报用户没有权限,出现”调用接口失败 execute_platform_task:账户【test】没有该业务的操作权限” 【排查】经咨询开发人员后,确认是以下原因导致:1)、由于exporter是内置在蓝鲸业务的机器下的,下发流程涉及到跨业务分发文件,因此要求用户同时拥有源业务和目标业务的权限,目前还在确定解决方案。2)、 promtheus类型的组件会有这个问题,包括Mencache、SQLServer、Oracle、Haproxy、Weblogic、RabbitMQ、Zookeeper等。 【解决方法】目前将”蓝鲸”这个业务的运维人员加上这个账号,即可解决该问题。  2.2      

主机性能监控【问题描述】cpu5分钟负载突然显示无数据上报. 【排查】在蓝鲸自监控里检查发现,databus的etl服务有异常。 【解决方法】登录到bkdata所在机器,重启etl服务。 

#检查服务状态

# supervisorctl -c

/data/bkee/etc/supervisor-bkdata-databus.conf status databus_etl

#重启服务

# supervisorctl -c

/data/bkee/etc/supervisor-bkdata-databus.conf restart databus_etl

2.3

服务拨测【问题描述】打开服务拨测,出现 【模块:data】接口返回结果错误:database not found:uptimecheck_212 的报错。 【排查】旧的拨测没建库成功的,需要手动触发接口创建 【解决方法】登录到蓝鲸的任意一台机器上执行以下命令创建库。

# curl -X "POST" "http://dataapi.service.consul:10011/tool/tsdb/create_db"  -H 'Content-Type: application/json;

  charset=utf-8' \

        -d $'{

  "db_name": "uptimecheck_212",

  "days": "30"

   }'

三   、作业平台3.1

执行脚本有异常【问题描述】作业平台执行脚本等操作时有问题,出现 " Execution result log always empty. " 的报错。 【排查】经检查,healthz接口正常,nfs挂载也正常,但有一台机的gse_task出现异常情况。 【解决方法】登录到出现gse_task异常的机器上重启gse_task,作业平台即可正常执行脚本等操作。

#停止gse_task服务

# cd /data/bkee/gse/server/bin/

# ./gsectl stop task

#检查gse_task服务是否已停止

# ps -ef | grep gse_task

#启动gse_task服务

# ./gsectl start task

四   、其它4.1

调整MySQL的innodb_log_file_size参数为4G

#停MySQL服务

# cd /data/bkee/service/mysql/bin/

# ./mysql.sh stop

#调整innodb_log_file_size参数

# vim /data/bkee/etc/my.cnf

# innodb_log_file_size = 4096M

#重命名旧的ib_logfile0和ib_logfile1,否则会启动失败

# cd /data/bkee/public/mysql/

# mv ib_logfile0

ib_logfile0.20190424.back

# mv ib_logfile1

ib_logfile1.20190424.back

#启动MySQL服务

# cd /data/bkee/service/mysql/bin/

# ./mysql.sh start

 4.2      

蓝鲸平台部署完成后再添加gse和nginx外网ip

#在中控机上,修改globals.env文件,添加gse和nginx外网ip

# cd /data/install/

# vi globals.env

         export

  AUTO_GET_WANIP=1

         export

  GSE_WAN_IP=(GSE_WAN_IP GSE_WAN_IP1)

  export NGINX_WAN_IP=(NGINX_WAN_IP NGINX_WAN_IP1)

#同步配置

# ./bkeec sync common

#重新渲染gse

# ./bkeec render gse

#重启gse

# ./bkeec stop gse

# ./bkeec start gse

#重新安装nginx

# ./bkeec install nginx 1

#重启nginx

# ./bkeec stop nginx

# ./bkeec start nginx

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,783评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,360评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,942评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,507评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,324评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,299评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,685评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,358评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,652评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,704评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,465评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,318评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,711评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,991评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,265评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,661评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,864评论 2 335