处理coredns Pending故障

生产环境中，遇到coredns Pending问题，如下

# kubectl get pod  -n kube-system |grep coredns
coredns-5479d79657-6gvvs               1/1     Running   3          28d
coredns-5479d79657-7l7tn               1/1     Running   3          28d
coredns-5479d79657-98qz8               1/1     Running   3          28d
coredns-5479d79657-bsx7h               1/1     Running   3          28d
coredns-5479d79657-btbl8               1/1     Running   3          28d
coredns-5479d79657-f6pwq               1/1     Running   3          28d
coredns-5479d79657-fbht5               0/1     Pending   0          28d
coredns-5479d79657-g7xhz               1/1     Running   3          28d
coredns-5479d79657-gw27m               1/1     Running   5          28d
coredns-5479d79657-h7g29               1/1     Running   3          28d
coredns-5479d79657-jqhj9               1/1     Running   2          28d
coredns-5479d79657-k94lh               1/1     Running   0          28d
coredns-5479d79657-kg5hv               1/1     Running   3          28d
coredns-5479d79657-khjdk               1/1     Running   3          28d
coredns-5479d79657-khp2l               0/1     Pending   0          2d22h
coredns-5479d79657-lwjb7               0/1     Pending   0          28d
coredns-5479d79657-p7ks6               1/1     Running   6          28d
coredns-5479d79657-p8c4v               1/1     Running   3          28d
coredns-5479d79657-tqdhz               0/1     Pending   0          7h15m
coredns-5479d79657-v6qfb               1/1     Running   3          28d
coredns-5479d79657-wcq7t               1/1     Running   3          28d
coredns-5479d79657-zbbck               0/1     Pending   0          28d

当前业务并无异常，只是pod状态不正常。删除pending状态的coredns，会立即启动一个，但依然是pending状态。查看一个pending状态的pod详细描述，可以看到报错原因

Events:
  Type     Reason            Age                        From               Message
  ----     ------            ----                       ----               -------
  Warning  FailedScheduling  2m18s (x2460351 over 21d)  default-scheduler  0/17 nodes are available: 17 node(s) didn't match pod affinity/anti-affinity, 17 node(s) didn't satisfy existing pods anti-affinity rules.

大概意思是现有的17个节点不满足节点亲和性，所以pod无法运行。

# kubectl get pod  -n kube-system |grep coredns  |wc -l
22
# kubectl get pod  -n kube-system |grep coredns  |grep Pending |wc -l
5

当前k8s集群里有17个node，coredns启动了22个，有5个为Pending状态。结合当前业务正常的情况猜测节点亲和性设置为每个节点只能运行一个coredns，于是有5个pod在其节点上由于已经有运行的coredns pod，无法运行，只能为Pending状态。查看节点亲和性。

# kubectl get ep -n kube-system
NAME                                          ENDPOINTS                                                               AGE
coredns                                       10.233.64.116:53,10.233.65.138:53,10.233.66.25:53 + 48 more...          33d
kube-controller-manager                       <none>                                                                  33d
kube-scheduler                                <none>                                                                  33d
kubernetes-dashboard                          10.233.67.14:8443                                                       33d
prometheus-operator-coredns                   10.233.64.116:9153,10.233.65.138:9153,10.233.66.25:9153 + 14 more...    33d
prometheus-operator-kube-controller-manager   <none>                                                                  33d
prometheus-operator-kube-etcd                 <none>                                                                  33d
prometheus-operator-kube-scheduler            <none>                                                                  33d
prometheus-operator-kubelet                   172.29.11.10:10255,172.29.11.12:10255,172.29.11.14:10255 + 48 more...   33d
tiller-deploy                                 10.233.66.24:44134                                                      33d
# kubectl edit deployment coredns -n kube-system
//只关注亲和性/反亲和性设置这一段
    spec:
      affinity:
        nodeAffinity:
          preferredDuringSchedulingIgnoredDuringExecution:
          - preference:
              matchExpressions:
              - key: node-role.kubernetes.io/master
                operator: In
                values:
                - ""
            weight: 100
        podAntiAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
          - labelSelector:
              matchLabels:
                k8s-app: coredns
            topologyKey: kubernetes.io/hostname

集群中node节点是17个，为什么coredns设置为22个？只好先看下副本管理器中coredns设置的副本数。查看旧版本的k8s副本管理器用kubectl get rc -n kube-system，而比较新的版本用rs代替rc。

# kubectl get rs -n kube-system
NAME                             DESIRED   CURRENT   READY   AGE
coredns-5479d79657               22        22        17      28d
dns-autoscaler-55944959bd        1         1         1       28d
kubernetes-dashboard-86b759667   1         1         1       28d
tiller-deploy-597b9b5f7c         1         1         1       28d

看到副本管理器中确实设定了副本数位22，先将副本数改为17，观察Pending状态的pod是否会被删除。

# kubectl edit rs coredns-5479d79657 -n kube-system
//这个命令可以修改coredns-5479d79657这个rs的配置，按照文档只修改spec.replicas的值
spec:
  replicas: 17 //改为跟node数一致
  selector:
    matchLabels:
      k8s-app: coredns
      pod-template-hash: 5479d7965
//修改完毕保存退出
replicaset.extensions/coredns-5479d79657 edited

但是保存此配置后，删除Pending状态的pod，还是会自动启动一个，总数并没有改变。使用命令修改副本数：

# kubectl scale rs coredns-5479d79657 -n kube-system --replicas=17
replicaset.extensions/coredns-5479d79657 scaled
# kubectl get pod  -n kube-system |grep coredns |wc -l
22

提示修改成功，但coredns pod数量还是没有改变。
尝试修改deployments

kubectl edit deployments coredns -n kube-system
//只修改spec.replicas的值
spec:
  progressDeadlineSeconds: 2147483647
  replicas: 17 //修改为与node数量一致
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      k8s-app: coredns

保存退出后，发现pod数量依然是22个。
使用patch修改deployment副本数，结果pod数量还是不变。

kubectl patch deployment coredns -p '{"spec":{"replicas":17}}' -n kube-system

由此可以推测coredns数量由某个进程或配置管理，不受rs、deployments管理。
这时注意到dns-autoscaler这个deployment，然后联想到cluster-autoscaler。CA（cluster-autoscaler）是用来弹性伸缩kubernetes集群的，dns-autoscaler应该是弹性伸缩coredns这个pod集群的。

# kubectl get deployment -n kube-system
NAME                   DESIRED   CURRENT   UP-TO-DATE   AVAILABLE   AGE
coredns                22        22        22           22          33d
dns-autoscaler         1         1         1            1           33d
kubernetes-dashboard   1         1         1            1           33d
tiller-deploy          1         1         1            1           33d

为了验证猜想，先停掉dns-autoscaler，再将pod数量调整为17个。

# kubectl scale deployment --replicas=0 dns-autoscaler -n kube-system
deployment.extensions/dns-autoscaler scaled
# kubectl patch deployment coredns -p '{"spec":{"replicas":17}}' -n kube-system
deployment.extensions/coredns patched
# kubectl get pod -n kube-system |grep coredns |wc -l
17

再查看coredns pod数量，已经变为17个，而且全都是running状态，问题解决。后续再研究下dns-autoscaler为什么会把coredns pod目标数量设定为22个，怎么修改这个预设数量。

最后编辑于：2021.04.23 17:27:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,519评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,842评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,544评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,742评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,646评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,027评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,513评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,169评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,324评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,268评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,299评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,996评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,591评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,667评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,911评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,288评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,871评论 2赞 341

处理coredns Pending故障

推荐阅读更多精彩内容