阿里首届云原生编程挑战赛2:实现规模化容器静态布局和动态迁移 2/4031

最终排名:2 / 4031,score = 501671,reschedule = 252009,schedule = 249662

Github:https://github.com/afkbrb/container-schedule

赛题地址:https://tianchi.aliyun.com/competition/entrance/231791/information

官方赛题解析:https://tianchi.aliyun.com/forum/postDetail?postId=113204

说明

IDEA 需要安装 lombok 插件。

代码中有些硬编码的地方(比如一个阈值直接写死了),其实不太好,但由于已经明确不更换数据,我也懒得一般化了。

分析

分为 schedule 和 reschedule 两个部分。schedule 部分就是要在满足约束条件下,将容器(以下称为 pod)放入尽可能少的 node 中。reschedule 部分同样是要满足一定的约束,使用尽可能少的迁移次数对容器进行迁移,使 node 资源利用率尽可能的高。

每个 node 有一定的 cpu、ram、disk、gpu 和 eni 资源,由于赛题数据中每个 pod 需要消耗的 gpu 资源都是 0,可以忽略 gpu,类似地,题目中的 eni 资源和 disk 资源其实是相对充裕的,同样可以忽略。此处忽略不是指忽略约束(忽略约束的话直接报错,分数直接一刀 99999999(分数越低越好))而是指忽略其占用率。通常都是 cpu 或 ram 不够用,我们只需要协调这两个资源就行了。

思路

schedule

采用贪心策略,每次处理一个 node,尽可能榨干其资源。

我一开始的思路如下:

设 toAllocatePods = { 所有需要分配资源的 pod }

foreach node
    allocatablePods = { toAllocatePods 中满足约束的所有能放入该 node 的 pod 组成的集合 }
    
    while (allocatablePods 非空)
        从 allocatablePods 中找出一个 bestFit // 规则见后
        将 bestFit 放入 node 中
        从 toAllocatePods 移除 bestFit
        重新计算 allocatablePods

获取 bestFit 步骤如下:对于 allocatablePods 中的每个元素,假设将这个 pod 加入 node,计算加入之后 node 的 cpu 和 ram 资源的离散系数,最终选取使得离散系数最小的那个 pod。

离散系数计算过程:假设某个 node 总共的 cpu 资源和 ram 资源分别为 R1, 和 R2,已经被消费的 cpu 和 ram 分别为 C1 和 C2,当前 pod 需要使用的 cpu 和 ram 就设为 cpu 和 ram,那么加入该 pod 后 cpu 的使用率 x = (C1 + cpu) / R1,gpu 使用率为 y = (C2 + gpu) / R2,容易推导离散系数如下:cov(x, y) = stdev(x, y) / avg(x, y) = ... = |x - y| / (x + y)

显然这题的关键在于要使得 cpu 和 ram 的利用率尽可能地接近,这样的话,两者能同时靠近 100%,从而减少一个资源先被耗尽导致另一个资源被浪费情况。

当然,使用方差/标准差也能达到这个目的,但使用离散系数的话在上式中 |x - y| 相同时会优先选取 x + y 更大的那一个,也就是说会优先放入比较消耗资源的 pod,从而使得剩余的 pod 大都是不太消耗资源的,增加了其能够插入 node 的可能性(集合 allocatablePods 中的元素会更多)。

这个方法能将 schedule 分数刷到 26 万左右,观察日志可以发现尾部的很多 node 只插入了 1、2 个 pod。这是因为这些 pod 所属的 group 的 pod 实例太多,它们都被留到了最后,而又由于题目约束了一个 group 在单个 node 上可分配的 pod 实例上限(其实要么是 1 要么是 2),即使在某个 node 资源充足的情况下,pod 也不能插入该 node。

于是我将算法改成下下面这个:

设 toAllocatePods = { 所有需要分配资源的 pod }

foreach node
    allocatablePods = { toAllocatePods 中满足约束的所有能放入该 node 的 pod 组成的集合 }

    firstFits = { 从 allocatablePods 中按一定的规则找出一些需要一开始就放入 node 的 pods } // 规则后面会介绍
    将 firstFits 中的 pod 放入 node // 需要注意的是每放入一个 pod,就需要检查 firstFits 中的剩余的 pod 是否仍是可放入的
    将 firstFits 中的 pod 从 toAllocatePods 中移除
    放完 firstFits 后,重新计算 allocatablePods
    
    while (allocatablePods 非空)
        从 allocatablePods 中找出一个 bestFit // 规则见后
        将 bestFit 放入 node 中
        从 toAllocatePods 移除 bestFit
        重新计算 allocatablePods

我们增加了 firstFits 集合。firstFits 集合(大小为 1 或 2,详见代码)中的 pod 满足其所属的 group 的 pod 实例数是当前剩余的所有 group 中最多的。这样的话我们就成功地将原来那些被留到最后的 pod 提前解决了。将这些 pod 一开始就放入 node 的好处在于即使这些 pod 使得 node 的离散系数较大,算法后面会自动选取合适的 pod 来与这些 pod 形成削峰填谷的关系,使得离散系数变小。

经过此调整,分数成功达到 25 万左右(我太菜了,到现在还是没懂为什么每次分数会不同,不知道那里引入了随机性)。

reschedule

有了 schedule 的经验,reschedule 就比较简单了。

官方 demo 已经给出了找到违背规则的 pod 并将其迁移使得布局合法的算法。

第一步

一开始也复用该代码,先使布局合理再做进一步调整。

第二步

定义 “不适合的 pod” 如下:设 pod 当前被放置在 node 中,令 x = pod 需要使用的 cpu / node 总共的 cpu,y = pod 需要使用的 ram / node 总共的 ram,如果 x,y 的离散系数大于一定阈值,我们就称这个 pod 为 “不合适的”。

调整的算法如下:

foreach node
    podsToMigrate = { 该 node 中所有不适合的 pod }
    将 podsToMigrate 中的每个 pod 移到后面的 node 中
    toAllocatePods = { 后面的所有 node 的 pod 中不适合的且能放入当前 node 的 pod 组成的集合 } // 后面和 schedule 很像
    allocatablePods = { toAllocatePods 中能够放入当前 node 的 pod 组成的集合 }
    
    while (allocatablePods 非空)
        从 allocatablePods 中找出一个 bestFit
        将 bestFit 放入 node 中
        从 toAllocatePods 移除 bestFit
        重新计算 allocatablePods

第三步

收尾。倒着遍历 node,尽可能地将后面 node 中的 pod 转移到前面来,以减少 node 使用数。

三步搞完,直接起飞,reschedule 分数达到了 252009,全场最佳。

一些投机的地方

规则要求代码能在半小时跑完就行了,我发现我一次 schedule 要跑 5min,一次 reschedule 要跑 5s,于是我每次运行就重复跑 schedule 和 reschedule 多次,选取最佳的组合,最终分数就好看些。

总结

之前打赛道一打了好久,分数一直不理想,换数据并取消日志后发现程序出现了 bug,但没日志根本没法找 bug,就全身心投入赛道二了,结果拿到了一个不错的成绩,确实是个惊喜。

另外,我的算法中的这些 bestFit、firstFit 的称谓是参考 CSAPP malloc lab 的,CSAPP 诚不欺我!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335