kernel deadlock caused by kmem counting in k8s

错误现象

a. 终端重复报警消息: NMI watchdog: BUG: soft lockup - CPU#xx stuck for 22s!

b. dmesg提示kernel: SLUB: Unable to allocate memory on node -1

c. crash log显示:

SLUB: Unable to allocate memory on node -1 (gfp=0xd0)

  cache: sock_inode_cache(158:8aff71103b350fcc15a20dcad154986160ce07496a9f70fa4aff83e7716b0936), object size: 632, buffer size: 640, default order: 3, min order: 0

  node 0: slabs: 8, objs: 363, free: 0

  node 1: slabs: 17, objs: 867, free: 0

socket: no more sockets

IPv6: Failed to initialize the ICMP6 control socket (err -23)

BUG: unable to handle kernel NULL pointer dereference at 0000000000000020

IP: [<ffffffff894dfb20>] ip6mr_sk_done+0x60/0xf0

.......

[<ffffffff894c984d>] rawv6_close+0x1d/0x40

[<ffffffff8946cf5d>] inet_release+0x7d/0x90

[<ffffffff894a67d0>] inet6_release+0x30/0x40

[<ffffffff893cba35>] sock_release+0x25/0x90

[<ffffffff893d302c>] sk_release_kernel+0x2c/0x60

[<ffffffff894cbbf5>] icmpv6_sk_init+0x125/0x140

[<ffffffff893e0794>] ops_init+0x44/0x150

[<ffffffff893e0943>] setup_net+0xa3/0x160

[<ffffffff893e10e5>] copy_net_ns+0xb5/0x180

[<ffffffff88ebfe89>] create_new_namespaces+0xf9/0x180

[<ffffffff88ec00ca>] unshare_nsproxy_namespaces+0x5a/0xc0

[<ffffffff88e90c13>] SyS_unshare+0x193/0x300

[<ffffffff8951f7d5>] system_call_fastpath+0x1c/0x21

操作系统版本是CentOS Linux release 7.5.1804, 内核为3.10.0-862.el7.x86_64,k8s版本是v1.12.3,Docker版本Docker version 18.06.1-ce。

问题分析及解决方案

首先我们看到内核提示的错误信息与内存分配有关,我们首先考虑这可能是一个内存泄露问题。同时,当终端不断弹出sock lockup错误信息时,手动stop docker service之后消息立马不再弹出,因而我们也怀疑这是docker造成的问题。

问题先从Linux的内存管理机制说起。在Linux中,内存分为内核内存及用户内存,内核内存设计为专用于Linux内核中系统服务使用,是不可swap的,因而内核内存资源对Linux系统来说是非常宝贵的。然而,正因为这种设计,现实中也存在很多针对内核内存资源的攻击,例如恶意进程可以通过不断地fork新进程从而耗尽系统资源,从而造成系统异常或崩溃,这就是所谓的“fork bomb”。

为了防止出现“fork bomb”,社区中就有提议通过linux内核限制cgroup中的kmem容量使用从而限制恶意进程的行为,即kernel memory accounting机制。当我们通过memory cgroup限制应用的内存使用时,我们不但需要限制应用对用户内存的使用,也需要限制应用对内核内存的使用。kernel memory accounting机制为cgroup的内存限制增加了stack pages(例如新进程创建)、slab pages(SLAB/SLUB分配器使用的内存)、sockets memory pressure、tcp memory pressure等,内核文档中有详细的描述。kernel memory accounting机制为cgroup提供了memory.kmem.usage_in_bytes配置项用于限制内核内存的使用,这个配置项与memory.limit_in_bytes(总内存限额)配合使用存在下面三种情形,在lwn文章中有详细的介绍:

    a. memory.kmem.limit_in_bytes == unlimited:这种情形不限制内核内存的使用。

    b. memory.kmem.limit_in_bytes < memory.limit_in_bytes:在这种情形下,我们详细的指定了内核内存的上限是多少。

    c. memory.kmem.limit_in_bytes >= memory.limit_in_bytes:在这种情形下,我们只关心包括内核内存及用户内存在内的内存的总使用情况,并不关心内核内存实际使用了多少。在实际使用中,通常是这种情形,我们将memory.kmem.limit_in_bytes设置成大于memory.limit_in_bytes,从而只限制应用的总内存使用。

k8s从1.9版本开始runc默认Enable了kernel memory accounting,即当容器应用设置了memory limit时,容器的memory cgroup中将为memory.kmem.limit_in_bytes设置整形最大值,从而使能内核内存限制机制。我们通过查看memory.kmem.slabinfo的信息即可判断在当前cgroup中kernel memory accounting是否使能,如果未使能,访问这个文件将报输入输出错误。

然而,在4.0以下版本的Linux内核对kernel memory accounting的支持并不完善,社区中逐渐爆出了slab leak causing a crash when using kmem control group问题,同时runc社区以及Kubernetes社区中也出现了同样的问题,Enabling kmem accounting can break applications on CentOS7application crash due to k8s 1.9.x open the kernel memory accounting by default。对于这个问题,在内核低于4版本的系统中给docker容器设置kernel-memory限制时将docker将给出以下提示:

You specified a kernel memory limit on a kernel older than 4.0. Kernel memory limits are experimental on older kernels, it won't work as expected and can cause your system to be unstable.

这个问题也是我们这次遇到问题的根本原因。kmem的泄露导致系统中的服务内存申请失败,从而造成了内核的soft lock。这个问题的解决方法在Kernel kmem leak caused by newer versions of Docker这篇文章中有很详细的介绍。我们解决的方案是将docker版本升级,版本特性包括Disable kmem accounting in runc on RHEL/CentOS (docker/escalation#614, docker/escalation#692) docker/engine#121。



更多我的文章可以查看我的github博客

添加好友我们可以聊更多相关话题二维码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342