本文译自 TCP keepalive: what is it, why do you need it, how to configure it on #Linux,在原文的基础上加入了一些自己的理解,而非逐句转译。建议英文过关的同学直接参考原文。
众所周知,一个服务在服务器上运行时需要依赖于底层系统提供的一些环境。但我们跑服务时常常会忽略掉系统给我们做的一些“清理工作”(比如防火墙,路由器,交换机的一些环境设定),而这些很有可能会导致我们的应用层程序并不如预期那样运行。
一个典型的例子是系统对于长时间运行的TCP连接的清理。防火墙会经常设置一些清理任务:为了保证死掉的、超时的或者一些非正常关闭的连接不再占用防火墙资源,在某个特定时刻(通常是半夜)防火墙会杀掉所有的连接。这个目的是好的,但往往会弄巧成拙,如果应用层程序对于这种“清理”没有感知的话,反而影响到应用层程序的正常运行。
那么如果我们需要一个能够长时间保持连接状态,即使中间有很长一段时间没有数据传输的连接的话要怎么办呢?为了解决这个问题,Liunx内核提供了一个在正常TCP连接处于长时间不活跃状态(无数据传输)下还能让其保持“活跃”(不会被杀掉)的方法。这就是文题中的TCP Keepalive 特性。
简而言之,TCP Keepalive 特性就是通过模拟数据流量传输从而让TCP连接保持活跃,从而不会被communication layer标记为不活跃。
首先,内核中有三个参数控制Keepalive特性:
-
tcp_keepalive_time
最后一个数据包(单独的ACK包不算在内)和第一个keepalive探针之间的间隔;在连接被标记为需要keepalive后,这个计时器之后就不再被使用
-
tcp_keepalive_intvl
keepalive探针之间的时间间隔,不管在这期间连接交互了什么
-
tcp_keepalive_probes
如果有N个keepalive探针没有被对端确认(N即tcp_keepalive_probes的值),内核会认为该连接已经死亡并且通知应用层
注意前两个参数的单位是秒(s),最后一个是个数。
调整这些参数最简单的方式(同时也保证它们能在重启后保持同样的值)是将它们放在/etc/sysctl.conf
或者目录/etc/sysctl.d/
下面的一个新文件内。
net.ipv4.tcp_keepalive_time = 60
net.ipv4.tcp_keepalive_intvl = 5
net.ipv4.tcp_keepalive_probes = 3
然后使其生效:
# sysctl -p /etc/sysctl.conf
上面的参数会导致如下的行为:
如果一个TCP连接经过了60s的非活跃状态(同时该连接并没有被其中一端关闭),内核会将其标记为“需要keepalive”。然后每隔5秒钟在这个连接上发送一个数据包(keepalive探针)模拟流量。如果超过3个探针没有被回复,内核会将这个连接标记为死亡,并通知应用层程序。