对于面向连接的TCP socket,在实际应用中通常都要检测对端是否处于连接中,连接端口分两种情况:
- 1、连接正常关闭,调用close() shutdown()连接优雅关闭,send与recv立马返回错误,select返回SOCK_ERR;
- 2、连接的对端异常关闭,比如网络断掉,突然断电.
对于第二种情况,判断连接是否断开的方法有一下几种:
- 自己编写心跳包程序,简单的说就是自己的程序加入一条线程,定时向对端发送数据包,查看是否有ACK,根据ACK的返回情况来管理连接。此方法比较通用,一般使用业务层心跳处理,灵活可控,但改变了现有的协议;
- 使用TCP的keepalive机制,UNIX网络编程不推荐使用SO_KEEPALIVE来做心跳检测(为什么??)。keepalive原理:TCP内嵌有心跳包,以服务端为例,当server检测到超过一定时间
(/proc/sys/net/ipv4/tcp_keepalive_time 7200 即2小时)
没有数据传输,那么会向client端发送一个keepalive packet,此时client端有三种反应:
1、client端连接正常,返回一个ACK.server端收到ACK后重置计时器,在2小时后在发送探测.如果2小时内连接上有数据传输,那么在该时间的基础上向后推延2小时发送探测包;
2、客户端异常关闭,或网络断开。client无响应,server收不到ACK,在一定时间(/proc/sys/net/ipv4/tcp_keepalive_intvl 75 即75秒)
后重发keepalive packet
, 并且重发一定次数(/proc/sys/net/ipv4/tcp_keepalive_probes 9 即9次)
;
3、客户端曾经崩溃,但已经重启.server收到的探测响应是一个复位,server端终止连接。
SO_KEEPALIVE的缺点:
根据MSDN的文档,如果为socket设置了KEEPALIVE选项,TCP/IP栈在检测到对方掉线后, 任何在该socket上进行的调用(发送/接受调用)就会立刻返回,错误号是WSAENETRESET;同时,此后的任何在该socket句柄的调用会立刻失败,并返回WSAENOTCONN错误。
该机制的缺点:
- 一、SO_KEEPALIVE无法控制,它会每时每刻都发;
- 二、SO_KEEPALIVE设置空闲2小时才发送一个“保持存活探测分节”,不能保证实时检测。对于判断网络断开时间太长,对于需要及时响应的程序不太适应。
当然也可以修改时间间隔参数,但是会影响到所有打开此选项的套接口!关联了完成端口的socket可能会忽略掉该套接字选项。
参考链接:
在Linux环境下使用TCP的keepalive机制:实现了心跳函数,代码逻辑清晰(看代码)
http://www.tuicool.com/articles/yAJ36bz
Linux SO_KEEPALIVE属性:对非活动连接的检测方法跟出现的情况写的比较细致(看描述)
http://blog.csdn.net/callinglove/article/details/38380673
LINUX C网络编程中的心跳机制:解释了不使用SO_KEEPALIVE的缺点
http://blog.csdn.net/yuyin86/article/details/24997175