TCP在真正的读写操作之前,服务端与客户端之间必须建立一个连接,当读写操作完成后,双方不再需要这个连接时它们可以释放这个连接,连接的建立通过三次握手,释放则需要四次挥手,所以说每个连接的建立都是需要资源消耗和时间消耗的。
长连接的操作步骤是:
建立连接->数据传输…(保持连接)…数据传输->关闭连接。
短连接的步骤是:
建立连接->数据传输->关闭连接…建立连接->数据传输->关闭连接。
长连接和短链接各自的优缺点:
1、长连接可以省去较多的TCP建立和关闭的操作,减少浪费,节约时间,但是一直连接对于客户端来说比较耗电。
2、对于频繁请求资源的客户来说,较适用长连接。
3、客户端与服务端之间的连接如果一直不关闭的话,会存在一个问题,
4、随着客户端连接越来越多,server早晚有扛不住的时候,这时候server端需要采取一些策略,如关闭一些长时间没有读写事件发生的连接,这样可以避免一些恶意连接导致服务端服务受损;
5、如果条件再允许就可以以客户端机器为颗粒度,限制每个客户端的最大长连接数,这样可以完全避免某些的客户端连累后端服务。
6、短连接对于服务器来说管理较为简单,存在的连接都是有用的连接,不需要额外的控制手段。
7、一次TCP连接和断开需要7个来回,如果客户端请求频繁,将在TCP的建立和关闭操作上浪费大量时间和带宽。
TCP长/短连接的应用场景
1、长连接多用于操作频繁,点对点的通讯,而且连接数不能太多情况。每个TCP连接都需要三次握手,这需要时间,如果每个操作都是先连接,再操作的话那么处理速度会降低很多,所以每个操作完后都不断开,再次处理时直接发送数据包就OK了,不用建立TCP连接。例如:数据库的连接用长连接,如果用短连接频繁的通信会造成socket错误,而且频繁的socket 创建也是对资源的浪费。
2、而像WEB网站的http服务一般都用短连接,因为长连接对于服务端来说会耗费一定的资源,而像WEB网站这么频繁的成千上万甚至上亿客户端的连接用短连接会更省一些资源,如果用长连接,而且同时有成千上万的用户,如果每个用户都占用一个连接的话,那可想而知吧。所以并发量大,但每个用户无需频繁操作情况下需用短连接好。
智能心跳
在国内移动网络场景下,各个地方运营商在不同的网络类型下NAT超时的时间差异性很大。采用固定频率的应用层心跳在实现上虽然相对较为简单,但为了避免NAT超时,只能将心跳间隔设置为小于所有网络环境下NAT超时的最短时间,虽然也能解决问题,但对于设备CPU、电量、网络流量的资源无法做到最大程度的节约。
为了优化这个现象,很多即时通讯场景会采用“智能心跳”的方案,来平衡“NAT超时”和“设备资源节约”。所谓智能心跳,就是让心跳间隔能够根据网络环境来自动调整,通过不断自动调整心跳间隔的方式,逐步逼近NAT超时临界点,在保证NAT不超时的情况下尽量节约设备资源。据说微信就采用了智能心跳方案来优化心跳间隔。
不过从个人角度看,随着目前移动资费的大幅降低,手机端硬件设备条件也越来越好,智能心跳对于设备资源的节约效果有限。而且智能心跳方案在确认NAT超时临界点的过程中,需要不断尝试,可能也会从一定程度上降低“超时确认阶段”连接的可用性,因此,我建议你可以根据自身业务场景的需要,来权衡必要性。
应用层心跳
为了解决TCP Keepalive存在的一些不足的问题,很多IM服务使用应用层心跳来提升探测的灵活性和准确性。应用层心跳实际上就是客户端每隔一定时间间隔,向IM服务端发送一个业务层的数据包告知自身存活。
如果IM服务端在一定时间内没有收到心跳包,就认定客户端由于某种原因连接不可达了,此时就会从IM服务端把这个连接断开,同时清除相应分配的其他资源。
应用层心跳和TCP Keepalive心跳相比,由于不属于TCP/IP协议栈的实现,因此会有一些额外的数据传输开销,但是大部分应用层心跳的设计上心跳包都尽量精简,一般就几个字节,比如有些应用层心跳包只是一个空包用于保活,有的心跳包只是携带了心跳间隔,用于客户端调整下一次的心跳,所以额外的数据开销都非常小。
应用层心跳相比TCP Keepalive,由于需要在应用层进行发送和接收的处理,因此更能反映应用的可用性,而不是仅仅代表网络可用。
而且应用层心跳可以根据实际网络的情况,来灵活设置心跳间隔,对于国内运营商NAT超时混乱的实际情况下,灵活可设置的心跳间隔在节省网络流量和保活层面优势更明显。
目前大部分IM都采用了应用层心跳方案来解决连接保活和可用性探测的问题。比如之前抓包中发现WhatApps的应用层心跳间隔有30秒和1分钟,微信的应用层心跳间隔大部分情况是4分半钟,目前微博长连接采用的是2分钟的心跳间隔。
每种IM客户端发送心跳策略也都不一样,最简单的就是按照固定频率发送心跳包,不管连接是否处于空闲状态。之前抓手机QQ的包,就发现App大概按照45s的频率固定发心跳;还有稍微复杂的策略是客户端在发送数据空闲后才发送心跳包,这种相比较对流量节省更好,但实现上略微复杂一些。
下面是一个典型的应用层心跳的客户端和服务端的处理流程图,从图中可以看出客户端和服务端,各自通过心跳机制来实现“断线重连”和“资源清理”。
需要注意的是:对于客户端来说,判断连接是否空闲的时间是既定的心跳间隔时间,而对于服务端来说,考虑到网络数据传输有一定的延迟,因此判断连接是否空闲的超时时间需要大于心跳间隔时间,这样能避免由于网络传输延迟导致连接可用性的误判