博客原文链接:https://onlyangelia.github.io/2019/03/07/%E7%BD%91%E7%BB%9C%E8%BF%9E%E6%8E%A5%E8%BF%87%E7%A8%8B/
讲解连接过程之前,先解释几点,给后面的阐述做铺垫。在我们的电脑启动时,会通过DHCP协议(也是属于应用层的协议,基于UDP协议,全程 Dynamic Host Configuration Protocol :动态主机配置协议) 进行动态配置IP地址(当然也可以手动配置IP,一般人不会这么做),并且我们的电脑会有对应的唯一的MAC地址(MAC全称:Media Access Control,媒体访问控制),发送网络包,目标地址既要包括IP地址,也要包含MAC地址。IP地址类似于住址,MAC地址类似于身份证,两者缺一不可。IP地址和MAC地址的映射可以通过APR协议(全称:Address Resolution Protocol 地址解析协议,是属于链路层的协议 ) 查询。记住IP地址和MAC地址这两个概念。
在TCP/IP五层模型下,通过在浏览器中浏览网页,我们来梳理下网络的连接过程。比如,我们在浏览器输入:https://onlyAnglia.github.io ,按下回车,到浏览器中显示出博客内容中间经历了哪些过程?先简单的讲下HTTP的连接,再在HTTP的基础上补充HTTPS的连接。当然应用层还有许多协议,例如RTMP、QUIC、GTP等,有基于TCP的,也有基于UDP的。这里举例用基于TCP的HTTP协议,有关传输层常用的协议UDP 和 TCP连接不同和详细的连接过程,后面会单独写解释,接下来看一下网络的连接。
整体的传输流程如下:
首先,机器和人不一样,并不能识别我们能熟记的域名,机器只认IP地址,所以
step1:进行DNS解析,得到域名对应的IP地址(DNS解析比较复杂,这里只说下一般流程,有关负载均衡等暂且不提)
浏览器先在本地DNS缓存中查找onlyAnglia.github.io 对应的IP地址,若找到则返回对应的IP;倘若本地DNS缓存中未查找到域名对应的IP地址,则接下来会像本地DNS服务器询问(如果是通过DHCP配置,本地DNS服务器由对应的 网络服务商(ISP自动分配),如果找到就直接返回IP地址;若没有找到,本地DNS服务器会向它的根域名服务器询问,根域名服务器会告诉本地DNS服务器该向哪个顶级域名服务器询问,之后顶级域名服务器会告诉本地DNS服务器该向哪个权威域名服务器询问;接下来本地DNS服务器会找到对应的权威域名服务器查询对应的IP地址,权威服务器将对应的IP地址告诉本地DNS服务器,本地DNS服务器再将IP地址返回给浏览器,浏览器接收到对应的IP地址,准备开始建立连接。
step2:使用HTTP协议,经过应用层包装
查询到域名对应的IP地址之后表示请求访问的目标存在,可以进行访问。然后应用层请求构建HTTP,客户端的HTTP报文叫做请求报文,多数使用的还是HTTP1.1,在HTTP1.1的请求报文中包含了请求行、首部、正文实体。 其中,请求行包含用户请求的方法,请求URI 和 HTTP版本号。 例如:POST /form/entry HTTP1.1
首部字段 包含各种请求条件和请求属性,有些字段只是请求首部字段,部分是通用首部字段,还有一部分是实体首部字段(有关该部分可详见:HTTP协议简单解释)。构建好请求报文后,通过stream二进制流传递给传输层。并且浏览器开启端口号监听。
step3:传输层接收请求报文,构建请求段(传输层协议主要有UDP协议和TCP协议,HTTP是基于TCP协议)
应用层将请求报文传递给传输层后,传输层根据要使用的协议进行传输层报文的封装,在这里构建的是TCP包头,传输层构建好TCP包头后,将传输来的流信息作为数据项。TCP的包头比较复杂,这和TCP的可靠连接有关,此时到了传输层后内核会开启,监听端口号,等待接下来的回应。(一般机器中会有一个网卡,也有部分机器会装有多个网卡)此时浏览器处于SYN-SENT状态。
step4:网络层接收传输层的段,构建IP包(网络传输二层叫帧,网络层叫包,传输层叫段)
网络层在接收到传输层传过来的TCP包后,第一个任务是封装IP包,将应用层传输过来的TCP包作为数据项,添加IP首部,形成IP包。传输层TCP协议的包头首部中包含了源端口号、目的端口号,在网络层IP协议要将源地址、目的地址包装在IP包中。此外,IP包中还包含了版本、首部长度、服务类型TOS、总长度、标识、标志、片偏移、首部检验和、生存时间TTL等。网络层封装完IP包后,将IP包传交给链路层。
step5:数据链路层接收IP包,构建MAC帧
数据链路层又可称为MAC层(MAC全称 Media Access Control 媒体访问控制),MAC层接收到IP包后,开始构建MAC帧,MAC帧开始是目标MAC地址和源MAC地址,源MAC地址毫无疑问是我们本机的MAC地址,本机的MAC地址在该设备被创造出来的时候就有,并且是唯一的(要想查看IP地址和MAC地址,linux上使用ifconfig或者ip addr,会在终端输出电脑的网络相关信息)。知道了自己设备上的MAC地址,但不知道目标IP地址对应的MAC地址,所以需要一个能够查询IP地址和MAC地址对应的协议,就是ARP(Address Resolution Protocol)协议。ARP协议只是针对IPv4,若是IPv6,要使用NDP协议。机器本地是有ARP协议缓存的,若能在ARP协议缓存中找到IP地址对应的MAC地址,便不会再去请求ARP协议,若没有则会请求ARP协议。在知道了目标IP地址对应的MAC地址后,将目标MAC地址放在MAC帧里,以太网的第二层最后面是CRC,也就是循环冗余检测,(MAC帧的其它组成不在细说)。
step6:MAC帧头构建好后,网关准备发包
MAC帧构建好,在网络中传输的网络包即构建好,然后将网络包发出去。在发包之前IP地址是否在同一个网段内的问题,通过CIDR和子网掩码计算是否在一个网段内,若在同一个网段内直接发出。一般我们访问的网站是不太可能和我们在同一网段内的,那么需要将包发往默认网关,默认网关收入包。
step7:网关查询路由表,通过路由协议进行网络传输
网关收入包后,取下MAC帧和IP包,判断该网哪里转发,根据路由算法,选择一个合适的网段。网段的选择会涉及到两种形式的路由算法,一种是静态路由,一种是动态路由。静态路由就是在路由器上配置一条条规则,维护路由表。可以通过route命令和ip route命令查看进行静态路由的查询和配置。 动态路由使用动态路由路由器,根据路由协议算法生成动态路由表,随网络运行情况的变化而变化。动态路由协议算法也涉及两大类,第一大类算法称为距离矢量路由(distance vector routing)适用于小型网络,最早的路由协议RIP采用该算法,第二大类算法是链路状态路由(link state routing)。内部网关协议采用基于链路状态路由算法的OSPF(Open Shortest Path First,开放式最短路径优先),网络的路由协议是基于距离矢量路由算法的BGP(Border Gateway Protocol)。BGP分为两类,eBGP和iBGP。对于网络包,每个数据中心有自己的规则,网络中这种不同规则所构成的网络包为自治系统AS(Autonomous System)。自治系统间边界路由器使用eBGP广播路由,内部运行iBGP,让内部路由器快速找到到达外网目的的最好的边界路由器。路由器之间信息交换使用的协议,RIP使用UDP协议,OSPF直接发送IP包,而BGP使用的是TCP协议,路由之间会建立TCP连接,每60s发送一次keep-alive 消息。此外HTTP 1.1默认keep-alive是开启的。这样网络包就像跳方格一样跳了多个(也许是一个)路由器之后,终于找到了目的IP地址所在的网关。
step8:找到目的IP地址后,网关取下MAC头,将IP包发送给目的主机的网络层,检查IP地址是否对上
目的IP地址所在的网关接收到网络包后,发现在同一个网段内, 将包收入,然后发送给目的主机,目的主机取下MAC头,判断一下MAC地址和自己的相符,然后将IP包传给网络层,网络层取下IP包头,查看IP地址和自己的IP地址是否对上。
step9:IP地址对上之后,网络层将包传递给传输层,TCP发确认包,会延刚才的方向报平安,直到收到平安到达的回复,进行TCP握手
网络层数判断IP地址对上之后,根据IP头中的协议项,知道自己上层还需要TCP协议,将包传递给传输层,目的主机的内核开启,当目的主机有了IP的端口号,就可以调用listen函数进行监听(TCP和UDP都是基于 Socket, 而 listen函数 是Socket里的函数,有关 Socket 这里不详细解说),目的主机处于LISTEN状态。传输层在收到TCP请求段后,会发送ACK包确认到达,此时目的主机处于SYN-RCVD状态,发送的网络包延刚才的路径传回,浏览器在接收到目的主机发送的SYN,ACK后进入ESTABLISHED状态,同时再发出ACK,当目的主机接收到ACK后也进入ESTABLISHED状态,此时TCP三次握手完成。
step10:TCP收到回复后,进行目的端口匹配,将包内容传给HTTP服务,RPC统筹处理请求,告诉相关进程
TCP三次握手完成后,进行目的端口匹配,之后将包内容传给上层的HTTP服务,RPC统筹处理,告诉相关进程(Soket可能是进程在维护也可能是线程在维护监听,并且TCP往往会创立两个Socket,一个叫做就监听Socket,一个是已连接Socket,这里不详细讲述)。
step11:RPC处理完毕,会回复一个HTTP/HTTPS包告知操作成功,准备向接收端传输处理结果
在RPC处理完毕后,目的主机开始向接收方发送数据。在连接建立的时候,两方已商定起始ID,但数据的发送不是一个发送完等回复后再发送另一个,而是通过累计确认或者叫累计应答(cumulative acknowledgment) 的模式进行传输,即在应答某个之前的ID表示都收到了。这样TCP需要双方有缓存进行记录,发送方的记录分四部分:第一部分是发送了并且已确认,第二部分是发送了并且尚未确认,第三部分是没有发送但在等待发送,第四部分是没有发送暂时也不会发送。第一部分和第二部分的分界线是lastByteAcked,第二部分和第三部分的分界线是lastByteSent,整个第二部分和第三部分的和 Advertised window 。 浏览器作为接收端在TCP报文里是会告诉发送端这个窗口大小的,超过了这个窗口的包,接收端无法接收就会丢弃。(有关接收方的窗口说明详情可自行查询)
step 12: TCP慢启动,之后开始进行数据传输,并随时监测窗口大小进行流量控制和拥塞控制
虽然浏览器作为接收方告诉了发送方窗口大小,但网络是瞬息万变的,也许这会网络变差了或者网段了,那么TCP在一开始的时候,为了避免造成通道容量溢出,一条TCP连接后,设置只能发送一个报文段cwnd(congestion window 拥塞窗口)设置为1,在收到一个确认后,cwnd加一,一次能够发送两个,当这两个报文段的确认到来的时候,每个cwnd都加一,这样两个cwnd就加二,一次就能发四个,开始呈现指数级增长。当一次发送超过ssthresh的值时代表快要溢出,此时cwnd改为增加1/cwnd,一轮下来增长一个......这是有关传输过程中的拥塞控制,关于拥塞控制仍有一些问题存在,具体的流程可自查询相关的流量控制和拥塞控制。
step 13:接收方浏览器接收到数据后,开始进行处理,逐渐在浏览器上显示
通过数据的传输,接收端接收到了来自发送方的网络包,当接收到一个网络包时,TCP最终将包传递给浏览器,让浏览器处理HTTP应答报文,这样随着应答报文的数量增加,网页中的内容也会逐渐的显示在浏览器上。
step 14: 数据传输完成,进行连接断开,四次挥手说再见
数据终于传输完成,到了该断开的时候。但我们知道TCP是可靠的传输连接,是相对靠谱的,那作为靠谱的协议在断开的时候不能说断开就断开,并且TCP是全双工的,所以接收端和发送端需要各自断开。数据传输完毕时,服务器和浏览器作为发送方和接收方都处于ESTABLISHED状态,此时服务器知道数据已传输完毕,准备断开,就向接收方发送FIN报文,进入FIN-WAIT-1状态;接收方收到FIN报文后,向发送方发送ACK,进入CLOSED-WAIT状态;服务端收到ACK后从FIN-WAIT-1状态进入FIN-WAIT-2状态;接收方进入CLOSED-WAIT状态结束后再向发送方发送FIN,ACK ,并进入LAST-ACK状态;发送方接收到FIN、ACK后从FIN-WAIT-2状态进入TIME-WAIT状态(等待2MSL),并且发送ACK;接收方接收到ACK后进入CLOSED状态;服务端等待2MSL(MSL: Maximum Segment Lifetime ,报文最大生成时间)后也进入CLOSED状态。至此,建立的连接已经各自断开,整个连接过程结束。
为了更好的理解TCP三次握手和四次挥手,附上TCP状态机
以HTTP为例讲述了网络的连接过程,其它协议与此大同小异,若是基于UDP的协议会在上述步骤中简化很多,数据传输中的socket维护也相对简单。以上就是网络的连接过程。