1. 平均负载的查看
在Linux系统中,如果我们想查看系统的负载,可以通过top
指令或者uptime
指令。以uptime
指令为例,可以看到以下输出:
[root@hadoop05 ~]# uptime
22:13:29 up 4 min, 3 users, load average: 1.17, 1.36, 0.63
uptime
指令输出数据的各项含义如下
22:13:29 系统的当前时间
up 4 min 系统运行的时间
3 users 登录的用户数
load average: 1.17, 1.36, 0.63 系统在过去的1分钟、5分钟、15分钟内的平均负载
2. 平均负载的正确含义
关于平均负载,有个不太准确理解:平均负载代表单位时间内的cpu使用率。
平均负载的正确含义指的是:单位时间内,系统处于可运行状态(正在使用CPU或者正在等待CPU的进程,stat=R)和不可中断状态(可能在等待IO, stat=D)的平均进程数
,和CPU使用率没有直接关系。
2.1 进程的状态
我们可以通过ps -aux
指令来查看系统的状态
[root@hadoop05 ~]# ps -aux
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 1 0.2 0.3 128448 6080 ? Ss 22:09 0:05 /usr/lib/systemd/systemd --switched-root --system --deserialize 21
root 2 0.0 0.0 0 0 ? S 22:09 0:00 [kthreadd]
root 3 0.5 0.0 0 0 ? S 22:09 0:11 [ksoftirqd/0]
root 5 0.0 0.0 0 0 ? S< 22:09 0:00 [kworker/0:0H]
root 6 0.0 0.0 0 0 ? S 22:09 0:01 [kworker/u128:0]
root 7 0.0 0.0 0 0 ? S 22:09 0:00 [migration/0]
root 8 0.0 0.0 0 0 ? S 22:09 0:00 [rcu_bh]
root 9 0.0 0.0 0 0 ? R 22:09 0:02 [rcu_sched]
root 10 0.0 0.0 0 0 ? S 22:09 0:00 [watchdog/0]
root 12 0.0 0.0 0 0 ? S 22:09 0:00 [kdevtmpfs]
root 13 0.0 0.0 0 0 ? S< 22:09 0:00 [netns]
root 14 0.0 0.0 0 0 ? S 22:09 0:00 [khungtaskd]
root 15 0.0 0.0 0 0 ? S< 22:09 0:00 [writeback]
root 16 0.0 0.0 0 0 ? S< 22:09 0:00 [kintegrityd]
root 17 0.0 0.0 0 0 ? S< 22:09 0:00 [bioset]
root 18 0.0 0.0 0 0 ? S< 22:09 0:00 [kblockd]
root 19 0.0 0.0 0 0 ? S< 22:09 0:00 [md]
root 25 0.0 0.0 0 0 ? S 22:09 0:00 [kswapd0]
root 26 0.0 0.0 0 0 ? SN 22:09 0:00 [ksmd]
其中STAT就表示进程的状态,其状态有以下几种:
D 不可中断睡眠 (通常是在IO操作) 收到信号不唤醒和不可运行, 进程必须等待直到有中断发生,一般比较短,在ps指令中不易看到
R 正在运行或可运行(在运行队列排队中)
S 可中断睡眠 (休眠中, 受阻, 在等待某个条件的形成或接受到信号)
T 已停止的 进程收到SIGSTOP, SIGSTP, SIGTIN, SIGTOU信号后停止运行
W 正在换页(2.6.内核之前有效)
X 死进程 (未开启)
Z 僵尸进程 进程已终止, 但进程描述符存在, 直到父进程调用wait4()系统调用后释放BSD风格的
< 高优先级(not nice to other users)
N 低优先级(nice to other users)
L 页面锁定在内存(实时和定制的IO)
s 一个信息头
l 多线程(使用 CLONE_THREAD,像NPTL的pthreads的那样)
+ 在前台进程组
2.2. 平均负载数字的含义
load average: 1.17, 1.36, 0.63
拿其中1分钟负载1.17来说,它表示1分钟内活跃的进程数是1.17,单纯看这个数字我们无法判断究竟是负载高了还是低了。
评判之前我们需要先知道系统有几个cpu,可以通过top
指令查看%Cpu
出现几行,出现几行表示有几个cpu,或者直接查看/proc/cpuinfo
文件。
2.3. 平均负载的预测
以下内容摘录于“架构师之路”公众号。系统单核为单核cpu
1)1分钟Load>5,5分钟Load<1,15分钟Load<1:短期内繁忙,中长期空闲,初步判断是一个“抖动”或者是“拥塞前兆”
2)1分钟Load>5,5分钟Load>1,15分钟Load<1:短期内繁忙,中期内紧张,很可能是一个“拥塞的开始”
3)1分钟Load>5,5分钟Load>5,15分钟Load>5:短中长期都繁忙,系统“正在拥塞”
4)1分钟Load<1,5分钟Load>1,15分钟Load>5:短期内空闲,中长期繁忙,不用紧张,系统“拥塞正在好转”
2.4. 平均负载多少合理
一般来说,当平均负载高于cpu数量70%的时候,负载就有点高了,应该要排查下原因。
推荐的方法,还是通过监控系统把平均负载给监控起来,然后根据大量的历史数据来衡量平均负载为多少是合理的。
3. 平均负载与CPU使用率的关系
我们知道平均负载指定的是单位时间内活跃的进程数
,不仅包括正在使用CPU的进程,还包括等待CPU和等待IO的进程。
显然平均负载和CPU使用率没有必然的关系,它们之间的关系如下所示:
- CPU密集型进程,使用大量CPU会导致平均负载升高,此时这两者是一致的;
- I/O密集型进程,等待I/O也会导致平均负载升高,但是CPU使用率却不一定高;
- 大量等待CPU的进程调度也会导致平均负载升高,此时的CPU使用率也会比较高。