简述
首先简要说明下僵尸进程和孤儿进程的概念(前提都是父进程调用fork
产生子进程)
- 僵尸进程:子进程终止,父进程没有
wait
子进程 - 孤儿进程:在子进程终止之前,父进程先终止
僵尸即“死了还活着”,子进程已经终止了,也就是说子进程死了。但是系统会保留子进程的信息(进程ID/终止状态/使用的CPU时间总量),这些残余信息仍然存在,也就是说某种意义上还活着。
孤儿则是父进程终止了,也就是丧父。
系统中有一些专用进程,其中ID1通常是init进程,简单来说就是进行系统启动时的一些初始化工作,并且决不会终止(直到关机)。孤儿进程是无害的,因为孤儿进程会被init进程收养,init进程必定会wait
所有的子进程。
而僵尸进程的父进程一直存活的话,僵尸进程的剩余信息一直会被保留,占用系统资源。
示例程序及结果
错误处理采用了APUE的函数,可以参考UNIX 环境高级编程(一) apue.h 文件与apue.3e的安装,不过这里是我自己写的精简版,总之函数名一样。
// zombie.cc
#include "../include/apue.h"
int main() {
pid_t first_pid = getpid(); // 最初的父进程ID
int proc_cnt = 1; // 进程数量
while (true) {
pid_t pid = fork();
if (pid < 0) {
err_msg("child process count: %d", proc_cnt);
err_sys("fork error");
}
// 只fork不wait
pid_t curpid = getpid();
if (curpid != first_pid) // 子进程退出
_exit(0);
++proc_cnt;
}
}
实验结果及分析
$ g++ zombie.cc -std=c++11
$ ./a.out
child process count: 7540
fork error: Resource temporarily unavailable
上述代码是一个典型示例,一个进程反复地创建子进程,但是不wait
子进程的信息,导致子进程全部成为了僵尸进程,每个僵尸进程的剩余信息仍然占用系统资源,最后导致fork
调用失败。
现在在fork()
那一行之前加上sleep(3)
,也就是隔3秒创建一个线程,重新运行,并用ps
查看当前终端的进程状态。
$ g++ zombie.cc -std=c++11
$ ./a.out &
[1] 18988
$ ps -u
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
xyz 2554 0.0 0.2 24552 5512 pts/18 Ss 19:39 0:00 bash
xyz 18988 0.0 0.0 13276 1516 pts/18 S 20:21 0:00 ./a.out
xyz 18989 0.0 0.0 0 0 pts/18 Z 20:21 0:00 [a.out] <defunct>
xyz 18990 0.0 0.0 0 0 pts/18 Z 20:21 0:00 [a.out] <defunct>
xyz 18991 0.0 0.0 0 0 pts/18 Z 20:21 0:00 [a.out] <defunct>
xyz 18992 0.0 0.1 39104 3252 pts/18 R+ 20:21 0:00 ps -u
$ ps -u
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
xyz 2554 0.0 0.2 24552 5512 pts/18 Ss 19:39 0:00 bash
xyz 18988 0.0 0.0 13276 1516 pts/18 S 20:21 0:00 ./a.out
xyz 18989 0.0 0.0 0 0 pts/18 Z 20:21 0:00 [a.out] <defunct>
xyz 18990 0.0 0.0 0 0 pts/18 Z 20:21 0:00 [a.out] <defunct>
xyz 18991 0.0 0.0 0 0 pts/18 Z 20:21 0:00 [a.out] <defunct>
xyz 18993 0.0 0.0 0 0 pts/18 Z 20:21 0:00 [a.out] <defunct>
xyz 18994 0.0 0.0 0 0 pts/18 Z 20:21 0:00 [a.out] <defunct>
xyz 18995 0.0 0.0 0 0 pts/18 Z 20:21 0:00 [a.out] <defunct>
xyz 18996 0.0 0.1 39104 3340 pts/18 R+ 20:22 0:00 ps -u
$ kill %1
$
[1]+ Terminated ./a.out
$ ps -u
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
xyz 2554 0.0 0.2 24552 5512 pts/18 Ss 19:39 0:00 bash
xyz 18999 0.0 0.1 39104 3328 pts/18 R+ 20:22 0:00 ps -u
<defunct>修饰的就是僵尸进程,APUE上说状态打印为Z,及STAT列,注意ps
命令需要加上-u
选项才能显示这么详细的信息。可以发现最初的进程一直在产生新的僵尸进程,但是杀死该进程后,所有的子进程(僵尸进程)全部都消失了,因为此时僵尸进程失去了父进程,成为了孤儿进程,被init进程收养,而init进程会wait
所有的子进程,僵尸被wait
后旧寿终正寝了。
这也是一种典型的解决方法,那就是杀死僵尸进程的父进程,从而将僵尸进程转换成孤儿进程,由init进程处理。
僵尸进程的解决方法
很自然地,既然产生僵尸进程的原因是没有wait
,那让父进程wait
不久完了。但是wait
是阻塞操作,如果子进程的生命周期比较久,可能父进程要等很久才能再fork
产生下个进程。对于父进程fork
若干个子进程的做法,往往是为了多进程并发执行,如果每次都要wait
,实际上还是顺序执行了。
1. waitpid
一种解决方法是使用waitpid
,它提供非阻塞模式,比如下列调用
waitpid(pid, &status, WNOHANG);
就是取得当前ID为pid的子进程终止状态,存入status,如果该子进程仍在运行,则立刻返回(而不是阻塞至子进程终止),返回值为0。
然后父进程保存所有子进程ID,用一个独立的线程去隔一段时间用非阻塞模式去wait
对应子进程,就能消除僵尸进程。
上述做法是一种简单的轮询,比如子进程数量过多时,每次都从前往后遍历,效率可能比较低。继续深入又是另一个话题,本文不再详述。
2. 处理信号
由于子进程终止时会向父进程发送SIGCHLD
信号,所以父进程可以对该信号设置一个信号处理器,信号处理器函数调用wait
即可,利用信号处理机制实现了对僵尸进程的异步处理。至于信号处理的坑,同样,继续深入又是另一个话题,本文不再详述。
3. 用一个子进程来间接创建子进程
APUE上的fork
两次的做法,是针对父进程fork
有限次后终止的简单情况。父进程A专门fork
一个子进程B,然后这个子进程fork
创建N个子进程(不调用wait
,所以会变成僵尸进程)后终止。子进程终止后,这N个僵尸进程失去了父进程B,所以成为了孤儿进程,被init进程收养,从而寿终正寝。这种做法本质还是和我之前的实验中手动kill
父进程一样。