Out of memory: Kill process 解决

环境：Centos7

现象：Linux测试服务器上部署了很多程序mysql、mongodb、java等等。程序操作mongodb经常进程被杀死的情况，导致业务中断，mongodb 的logs无提示信息。查看系统日志message后，发现对应时间点，系统自动kill掉了mongodb进程，如下
Out of memory: Kill process 5372 (mongod) score 130 or sacrifice child
Killed process 5372 (mongod), UID 0, total-vm:2539052kB, anon-rss:2117096kB, file-rss:0kB, shmem-rss:0kB

（转载过来的。一些命令不适用于centos7及以后的）
Linux有一个特性：OOM Killer，一个保护机制，用于避免在[内存]不足的时候不至于出现严重问题，把一些无关的进程优先杀掉，即在内存严重不足时，系统为了继续运转，内核会挑选一个进程，将其杀掉，以释放内存，缓解内存不足情况，不过这种保护是有限的，不能完全的保护进程的运行。

Linux 分配内存策略
Linux内核根据应用程序的要求来分配内存，由于进程实际上并不会将分配的内存全部使用，所以，为了提高性能，内核采用了一种过度分配内存（over-commit-memory）的策略，来间接利用进程的空闲内存，提高内存的使用效率。一般来说，这没问题。但如果大多数进程都耗光自己的内存，就有麻烦了。因此此时，所有应用程序的内存之和大于物理内存。所以，必须杀掉一部分进程，一般来说，是选内存占用最大的进程杀掉。

挑选原理
挑选的过程由linux/mm/oom_kill.c里的 oom_badness() 函数决定，挑选的算法很直接：是那个最占用内存的进程。
/**

oom_badness - heuristic function to determine which candidate task to kill
@p: task struct of which task we should calculate
@totalpages: total present RAM allowed for page allocation
The heuristic for determining which task to kill is made to be as simple and
predictable as possible. The goal is to return the highest value for the
task consuming the most memory to avoid subsequent oom failures.
*/
unsigned long oom_badness(struct task_struct *p, struct mem_cgroup *memcg,
const nodemask_t *nodemask, unsigned long totalpages)
{
long points;
long adj;

if (oom_unkillable_task(p, memcg, nodemask))
return 0;

p = find_lock_task_mm(p);
if (!p)
return 0;

adj = (long)p->signal->oom_score_adj;
if (adj == OOM_SCORE_ADJ_MIN) {
task_unlock(p);
return 0;
}

/*
- The baseline for the badness score is the proportion of RAM that each
- task's rss, pagetable and swap space use.
  */
  points = get_mm_rss(p->mm) + p->mm->nr_ptes +
  get_mm_counter(p->mm, MM_SWAPENTS);
  task_unlock(p);
/*
- Root processes get 3% bonus, just like the __vm_enough_memory()
- implementation used by LSMs.
  */
  if (has_capability_noaudit(p, CAP_SYS_ADMIN))
  adj -= 30;
/* Normalize to oom_score_adj units */
adj *= totalpages / 1000;
points += adj;

/*
- Never return 0 for an eligible task regardless of the root bonus and
- oom_score_adj (oom_score_adj can't be OOM_SCORE_ADJ_MIN here).
  */
  return points > 0 ? points : 1;
  }
  避免被杀掉的办法
  从上面的代码里可以看到 oom_badness() 给每个进程打分，根据 points 的高低来决定杀哪个进程，分数越低越不会被杀掉。
  这个 points 可以根据 adj 调节，root 权限的进程通常被认为很重要，不应该被轻易杀掉，所以打分的时候可以得到 3% 的优惠（adj -= 30; 分数越低越不容易被杀掉）。
  我们可以在用户空间通过操作每个进程的 oom_adj 内核参数来使得进程不容易被 OOM killer 选中杀掉。比如，如果不想 test进程被轻易杀掉的话可以找到 test运行的进程号后，调整 oom_score_adj 为 -15（注意 points 越小越不容易被杀）：

ps aux | grep test

test 2334 1.6 2.1 623800 4876 ? Ssl 09:52 0:00 /usr/sbin/test

cat /proc/2334/oom_score_adj

echo -15 > /proc/2334/oom_score_adj

当然，也可以完全关闭 OOM killer，但线上生产环境最好不要这么做。

OOM_killer是Linux自我保护的方式，当内存不足时不至于出现太严重问题，有点壮士断腕的意味

在kernel 2.6，内存不足将唤醒oom_killer，挑出/proc/<pid>/oom_score最大者并将之kill掉

为了保护重要进程不被oom-killer掉，我们可以：echo -17 > /proc/<pid>/oom_adj,-17表示禁用OOM

我们也可以对把整个系统的OOM给禁用掉：

sysctl -w vm.panic_on_oom=1 （默认为0，表示开启）

sysctl -p

值得注意的是，有些时候 free -m 时还有剩余内存，但还是会触发OOM-killer，可能是因为进程占用了特殊内存地址

平时我们应该留意下新进来的进程内存使用量，免得系统重要的业务进程被无辜牵连

可用 top M 查看最消耗内存的进程，但也不是进程一超过就会触发oom_killer

参数/proc/sys/vm/overcommit_memory可以控制进程对内存过量使用的应对策略

当overcommit_memory=0 允许进程轻微过量使用内存，但对于大量过载请求则不允许(默认）

当overcommit_memory=1 永远允许进程overcommit

当overcommit_memory=2 永远禁止overcommit

参考：
https://blog.csdn.net/pansaky/article/details/87518586
https://www.cnblogs.com/shenlinken/p/10987895.html
https://blog.csdn.net/weixin_34186128/article/details/94673229
https://www.cnblogs.com/yanqingxu/p/8316359.html

最后编辑于：2022.05.13 17:53:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

Out of memory: Kill process 解决

ps aux | grep test

cat /proc/2334/oom_score_adj

echo -15 > /proc/2334/oom_score_adj

推荐阅读更多精彩内容