ES集群red状态排查与恢复

原文转自我的博客

问题描述

ElasticSearch开箱即用，本身并没有太多需要配置、调整的参数，平时使用中最大的问题应该就是red状态的处理恢复了。现某用户使用的ES集群报health状态为red要求技术支持。我们首先看到用户提供的状态信息：

{
  "cluster_name" : "real_cluster",
  "status" : "red",
  "timed_out" : false,
  "number_of_nodes" : 101,
  "number_of_data_nodes" : 98,
  "active_primary_shards" : 12345,
  "active_shards" : 23456,
  "relocating_shards" : 0,
  "initializing_shards" : 40,
  "unassigned_shards" : 51,
  "delayed_unassigned_shards": 0,
  "number_of_pending_tasks" : 0,
  "number_of_in_flight_fetch": 0,
  "task_max_waiting_in_queue_millis": 0,
  "active_shards_percent_as_number": 99.704321
}

上述信息后台可以通过命令获取：

curl -X GET "localhost:9200/_cluster/health?pretty"
# 如果开启Xpack了，需要带上密码访问
curl -X GET -k -u username:passwd "https://localhost:9200/_cluster/health?pretty"

上述GET命令也可以直接粘贴在浏览器里获得结果。

问题定位

界面观察

已知信息是生产环境实际上的ES的数据节点（data node）理论上是99个，现在是98个，master节点是3个。

用户已经反馈从管理界面上观察ES所有实例服务状态全部正常，但集群health是red，这里的差异在于管理页面是检查进程pid判断是否存活的，而ES集群内部则需要心跳发现机制，因此Web页面显示ES状态ok，但health显示少一个ES节点，表明有一个ES的数据节点（这里称为Slave）失联了。

现在的首要任务就是找到99个es实例里谁在滥竽充数，假装活着！

后台日志

后台先去查看ES的master的real_cluster.log，没有找到关于连接的异常信息，里面查不到ERROR。

后台再去看个ES的slave的日志real_cluster.log，直接翻到最后，发现有连接类的错误出现了。

定位的关键内容摘要如下：
```
xxx-slave failed to connect to xxx2-slave7
ConnectTransportException xxx2-slave7 general node connection failure
……省略很长一串at
……
```
这里的关键信息就是一个slave报告说连不上【xxx2-slave7】，这就找到了。

查看更多其他slave节点的日志，也都是报连不上【xxx2-slave7】
综上，这个ES实例的名字知道了，顺藤摸瓜，服务器节点是xxx2，ES实例名是slave7，这种错误一般是集群压力大，心跳通信出问题，我们需要去重启这个ES实例。

问题处理

恢复失联的那个ES实例：上一步我们已经定位到了问题节点，需要通过管理页面重启。
页面显示重启该ES Slave成功（实际上没有成），过一会儿观察该实例并未在启动状态，ES仍是red，node仍然少一个。
再次启动该ES实例，显示成功不久后又挂掉了,属于后台进程启动不久后失败，此时去后台查该实例的日志发现有报错：
```
# 关键词
failed to bind service
IOException: failed to find metadata for existing index xxx …… [locaton: xxx]
```
该问题处理办法是删除实例对应的manifest文件。

这个文件的位置在该ES实例的数据存储目录下，如/data/es/slave7/nodes/0/_state，其中nodes/0/_state这几个目录应该是不变的，前面的路径随配置。

这个_state下面有manifest-xxx.st文件，直接删除或者备份后删除该文件。
再次重启该ES实例，如果等一会还未加入ES集群，日志里显示该节点频繁add、remove，再次重启该实例。
观察health，好了ES的节点数完全恢复了（从98变回了99），集群状态很快从red变成yellow了。
重点观察,initializing_shards和unassigned_shards一般逐渐减小，分片正在恢复中。
```
"initializing_shards" : 40,
"unassigned_shards" : 51,
……
"active_shards_percent_as_number": 99.884321
```
集群活跃分片百分比升高，等所有分片恢复完成，则集群会恢复green。

索引分片数据量很大时，恢复需要花费几个小时。

后续处理

如果initializing_shards减小到0了，还有未分配的分片（unassigned_shards不是0），首先应查看未分配的原因，但一般情况可以先执行reroute命令：
```
# 尤其在报错原因里提示分配失败是因为达到最大分配次数时，可使用这个命令。
POST /_cluster/reroute?retry_failed=true&pretty
```

其他根据explain的原因对症下药。

# 这个命令用来查看分片不分配的原因：
curl -XGET -k -u name:pass https:esip:9200/_cluster/allocation/explain?pretty
# 输出的内容可能很多，可以保存到文件查看。

最后编辑于：2022.06.07 21:49:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345

ES集群red状态排查与恢复

问题描述

问题定位

问题处理

后续处理

推荐阅读更多精彩内容