K8s污点容忍度横向主节点

污点节点亲和性容忍度

污点是K8s高级调度的特性，用于限制哪些Pod可以被调度到某一个节点。在普通节点横向时我们可以使用污点容忍度创建恶意pod来对主节点进行横向控制。

1、kube-scheduler调度

kube-scheduler是Kubernetes 集群的默认调度器，并且是集群控制面(master)的一部分。对每一个新创建的Pod或者是未被调度的Pod，kube-scheduler会选择一个最优的Node去运行这个Pod。

然而，Pod内的每一个容器对资源都有不同的需求，而且Pod本身也有不同的资源需求。因此，Pod在被调度到Node上之前，根据这些特定的资源调度需求，需要对集群中的Node进行一次过滤。

如下为在创建pod的流程中，调度器的作用：

当创建pod时候，会首先把创建的命令请求提交给apiserver，通过一系列认证授权,apiserver把pod数据存储到etcd,创建deployment资源并初始化。然后再是scheduler通过进行list-watch机制进行监测，经过调度算法把pod调度到某个node节点上，最后信息更新到etcd，再后面就是kubelet接受信息到创建容器。

1654856204-730990-image

2、哪些因素影响调度

1.pod资源限制

当前调度器选择适当的节点时，调度程序会检查每个节点是否有足够的资源满足 Pod 调度，比如查看CPU和内存限制是否满足：

1654856218-318825-image

通过资源限制调度程序可确保由于过多 Pod 竞争消耗节点所有可用资源，从而导致节点资源耗尽引起其他系统异常。

2.节点选择器nodeSelector

在创建pod的时候，节点选择器可以约束pod在特定节点上运行。

nodeSelector 也是节点选择约束的最简单推荐形式，nodeSelector 字段添加到 Pod 的规约中设置希望目标节点所具有的节点标签。 K8s 只会将 Pod 调度到拥有你所指定的每个标签的节点上。

1654856233-741326-image

例子，比如多个节点需要调度时候，通过给1，2节点打上标签，创建pod时候使用节点选择器，那么pod会被按照节点选择器希望的目标在相应节点调度。

1654856242-986859-image

为节点打上标签：

kubectl label node nodename env_role=env

1654856276-99065-image

查看节点的标签：

kubectl get nodes nodename --show-labels

1654856290-523756-image

3.节点亲和性nodeAffinity

节点亲和性概念上类似于 nodeSelector，它使可以根据节点上的标签来约束 Pod 可以调度到哪些节点上，这种方法比上面的nodeSelector更加灵活，它可以进行一些简单的逻辑组合了，不只是简单的相等匹配。

1654856307-694417-image

节点亲和性和节点选择器相比功能更强大，比如还是刚才的图，如果我使用节点选择器env_role:dev1的话是找不到相应的节点的，就没有办法调度，会一直是一个等待的状态：

1654856328-413659-image

但我如果使用节点亲和性，就算当前没有这个节点，我还是可以根据调度调度策略进行调度，不只是简单的相等匹配。

调度策略

调度可以分成软策略(软亲和性)和硬策略(硬亲和性)两种方式：

软亲和性(preferredDuringSchedulingIgnoredDuringExecution)就是如果你没有满足调度要求的节点的话，POD 就会忽略这条规则，继续完成调度过程，说白了就是满足条件最好了，没有的话也无所谓了的策略；
硬亲和性(requiredDuringSchedulingIgnoredDuringExecution)表示当前的条件必须满足，如果没有满足条件的节点的话，就不断重试直到满足条件为止，简单说就是你必须满足我的要求，不然我就不干的策略。

如图可以看到软亲和性和硬亲和性的字段其实差不多，软亲和性多了一个weight字段，表权重：

1654856351-643531-image

亲和性操作符

如上亲和性还有一个字段是operator表匹配的逻辑操作符，可以使用descirbe命令查看具体的调度情况是否满足我们的要求，K8s提供的操作符有下面的几种：

In：label 的值在某个列表中
NotIn：label 的值不在某个列表中
Gt：label 的值大于某个值
Lt：label 的值小于某个值
Exists：某个 label 存在
DoesNotExist：某个 label 不存在

如果nodeSelectorTerms下面有多个选项的话，满足任何一个条件就可以了；如果matchExpressions有多个选项的话，则必须同时满足这些条件才能正常调度 POD。

1654856373-652246-image

污点（Taints）与容忍（tolerations）

容忍度（Toleration）是应用于 Pod 上的，允许（但并不要求）Pod 调度到带有与之匹配的污点的节点上。污点说白了就是不做普通的调度。

对于节点亲和性无论是软亲和性和硬亲和性，都是调度 POD 到预期节点上，而污点(Taints)恰好与之相反，如果一个节点标记为 Taints，除非 POD 也被标识为可以容忍污点节点，否则该 Taints 节点不会被调度pod。

污点（Taints）

查看污点情况：

kubectl describe node nodename | grep Taint

1654856395-837128-image

可以看到，默认污点也只有master有。

污点里的值有三种：

NoSchedule：POD 不会被调度到标记为 taints 节点。
PreferNoSchedule：NoSchedule 的软策略版本。
NoExecute：该选项意味着一旦 Taint 生效，如该节点内正在运行的 POD 没有对应 Tolerate 设置，会直接被逐出。

NoSchedule就是字面意思，不会被调度，PreferNoSchedule说白了是尽量不被调度，NoExecute是不会调度并且还会驱逐node已有的pod。

创建一个pod：

1654856431-844199-image

如果不加污点，可以看到这个pod会随机调度到节点1或者节点2：

1654856446-355374-image

这时候把pod删除了，重新创建pod并且给node加上污点：

给节点打污点：

kubectl taint node nodename key=value:NoSchedule

1654856459-579523-image

重新创建pod并且deployment多个：

1654856471-14659-image

可以发现全部被调度在节点2上，节点1的污点NoSchedule起了作用。

删除污点：

1654856483-233145-image

污点容忍度（tolerations）

容忍度tolerations是定义在 Pod对象上的键值型属性数据，用于配置其可容忍的节点污点，而且调度器仅能将Pod对象调度至其能够容忍该节点污点的节点之上。

污点定义在节点的node Spec中，而容忍度则定义在Pod的podSpec中，它们都是键值型数据。

在Pod对象上定义容忍度时，它支持两种操作符：一种是等值比较Equal,表示容忍度与污点必须在key、value和effect三者之上完全匹配；另一种是存在性判断Exists，表示二者的key和effect必须完全匹配，而容忍度中的value字段要使用空值。

这里的key和value对应的值都是你自己设置的key和value：

1654856493-926957-image

说白了就是：

如果operator是Exists（此时容忍度不能指定 value）
如果operator是Equal，则它们的value应该相等

而污点容忍的作用举个例子，如果像上面污点一样设置了NoSchedule污点的节点，那么创建pod的时候是必不被调度到的，但是如果我使用污点容忍，那这个节点可以在设置NoSchedule污点的情况下可能又被调度，类似于亲和性那种作用。

3、污点横向渗透

污点和污点容忍度的作用也就是获取主节点的shell，因为像常见或者节点shell的流程是创建pod--》分配到正常node---》通过常规挂载目录拿到节点的shell，而默认主节点是不被调度的，所以只有使用污点容忍度，创建一个能够被调度到master节点的pod，然后通过挂载之类的手法来拿到主节点的shell。

通过创建一个具有node-role.kubernetes.io/master:NoSchedule的容忍度让Pod被Kubernetes Master所调度。

apiVersion: v1
kind: Pod
metadata:
  name: nginx
  labels:
    env: test
spec:
  containers:
  - name: nginx
    image: nginx
    imagePullPolicy: IfNotPresent
  tolerations:
  - key: "node-role.kubernetes.io/master"
    operator: "Exists"
    effect: "NoSchedule"

如上的Pod中将宿主机的根目录挂载到容器中（volumes与volumeMounts）即可逃逸至Kubernetes Master中接管集群。

查看节点，当前是在普通节点：

1654856509-944193-image

多次创建可以发现在master节点上了：

1654856523-204282-image

可以通过挂载操作master节点母机shell:

1654856535-594334-image

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,033评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,725评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,473评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,846评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,848评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,691评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,053评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,700评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,856评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,676评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,787评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,430评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,034评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,990评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,218评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,174评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,526评论 2赞 343