浏览器工作原理之HTTP协议

浏览器要做的事情, 就是把一个URL变成一个屏幕上可以显示的网页

大体流程是这样的:

  1. 浏览器首先使用HTTP协议或者HTTPS协议, 向服务端请求页面.
  2. 把请求回来的HTML代码经过解析, 构建成DOM树
  3. 计算DOM树上的CSS属性
  4. 最后根据CSS属性对元素进行渲染, 得到内存中的位图
  5. 对位图进行合成, 这会极大地增加后续的绘制速度
  6. 合成之后, 在绘制到界面上

我们从HTTP请求回来开始, 这个过程并不是想象中的做完上一步, 在做下一步, 而是一条流水线. 从HTTP请求回来, 就产生了流式的数据, 后续的构建DOM树, 计算CSS, 渲染(得到内存中的位图), 合成, 绘制, 都是尽可能的流式的处理上一步的产出, 也就是说, 不用等上一个步骤完全结束, 就开始处理上一步的输出, 这样我们浏览网页时, 才会看到逐步出现的页面.

先介绍下网络通讯的部分:

HTTP协议

浏览器首先要做的就是, 根据URL把数据取回来, 取回数据使用的是HTTP协议, 这个过程要经过DNS查询.

HTTP协议是基于TCP协议出现的, 对HTTP协议来说, TCP协议是一条双向的通讯通道, HTTP协议在TCP协议的基础上, 规定了Request-Response的模式. 这个模式决定了通讯一定是由浏览器首先发起的.

大部分情况下, 浏览器的实现者只需要用一个TCP库, 甚至一个现成的HTTP库就可以完成浏览器的网络通讯部分. HTTP(超文本传输协议)是纯粹的文本协议, 它是规定了使用TCP协议来传输文本格式的一个应用层协议. 在TCP通道中传输的, 完全是文本.

HTTP协议格式

请求:

GET / HTTP/1.1
Host: www.baidu.com

account=521365120&password=123456

响应:

HTTP/1.1 404 Not Found
Data: Fri, 25 jan 2019 12:23:12 GMT
Content-Type: text/html
Content-Length: 170
Connection: keep-alive
Location: https://www.baidu.com

<html>
  <head>...</head>
  <body>...</body>
</html>

请求部分

在请求部分, 第一行为请求行, 它分为三个部分, 请求方法, 请求的路径和请求的协议和版本.

在请求行之后, 紧跟着的若干行是请求头, 请求头中的每行由key/value键值对组成

在请求头之后, 以一个空行为分隔, 是请求体. 请求体可能包含文件或者表单数据.

简单看下, 请求的路径完全由服务端来定义, 没有什么特别内容

请求方法:

介绍一下请求行中的method(请求方法), 它表示我们此次HTTP请求希望执行的操作类型. 方法有以下几种定义:

  • GET
  • POST
  • HEAD
  • PUT
  • DELETE
  • CONNECT
  • OPTIONS
  • TRACE

浏览器通过地址栏访问页面都是GET方法. 表单提交产生POST方法.

HEAD则是和GET方法类似, 只返回请求头, 多数由javascript发起

PUT和DELETE方法分别表示添加资源和删除资源, 但是实际上这只是语义上的一种约定, 并没有强制约束.

CONNECT现在多用于HTTPS和WebScket.

OPTIONS和TRACE一般多用于调试, 多数线上服务都不支持

请求头

Accept: 浏览器接收的格式
Accept-Encoding: 浏览器接收的编码方式
Accept-Language: 浏览器接受的语言, 用于服务端判断多语言
Cache-Control: 控制缓存的时效性
Connection: 连接方式, 如果是keep-alive, 且服务端支持, 则会复用连接
Host: HTTP访问的域名
if-Modified-Since: 上次访问时的更改时间, 如果服务器认为此时间后自己没有更新, 则会给出304响应.

if-None-Match: 次访问时使用的E-Tag, 通常是页面的信息摘要, 这个比更改时间更准确些

User-Agent: 客户端标识, 因为一些历史原因, 这是一个糟糕的东西, 多数浏览器这个字段都很复杂, 区别十分微妙

Cookie: 客户端存储的cookie字符串

请求体

请求体主要用于提交表单的场景. 实际上, 请求体是比较自由的, 只要浏览器端发送的body是服务端认可的就可以了. 一些常见的body格式如下:

  • application/json
  • application/x-www-form-urlencoded
  • multipart/form-data
  • text/xml

我们使用html的form标签提交产生的http请求, 默认会产生application/x-www-form-urlencoded的数据格式, 当有文件上传时, 则会使用multipart/form-data.

响应部分

第一部分是响应行, 由协议和版本, 状态码和状态文本
第二部分是响应头, 由key/value组成
第三部分是空行
第四部分则是响应体, 为html代码

响应状态码和状态文本

  • 1xx: 临时回应, 表示客户端请继续

  • 2xx: 请求成功

  • 3xx: 表示请求的目标有变化, 希望客户端进一步处理.

    • 301/302: 永久性/临时性跳转
    • 304: 客户端缓存没有更新
  • 4xx: 客户端请求错误

    • 403: 无权限
    • 404: 请求的页面不存在
    • 418: it's a teapot, 来自一个愚人节玩笑
  • 5xx:服务端错误

    • 500: 服务端错误
    • 503: 服务端暂时性错误, 可以一会再试

对前端来说, 1xx系列的状态码是非常陌生的, 原因是1xx的状态直接被浏览器的http库直接处理掉了, 不会让上层应用知晓.

2xx系列的状态最熟悉的就是200, 这通常是网页请求成功的标志, 也是我最喜欢的状态码

3xx系列比较复杂, 301实际上更接近于一种报错, 提示客户端下次你可别来了, 304又是一个很重要的状态码, 产生这个状态的前提是: 客户端本地已经有缓存的版本, 并且在请求头中告诉了服务端, 当服务端通过时间或者tag, 发现没有更新的时候, 就会返回一个不含body的304状态码.

响应头

Catch-Control: 缓存控制, 用于通知各级缓存的保存时间, 例如max-age=0, 表示不要缓存

Connection: 连接类型, Keep-Alive表示复用连接
Content-length: 内容的长度, 有利于浏览器判断是否已结束
Content-Encoding: 内容编码方式, 通常是gzip
Content-type: 内容类型, 请求的网页则为text/html
Data 当前的服务器日期
ETag 页面的信息摘要, 用于判断是否需要重新到服务器取回页面
Expires: 过期时间, 用于判断下次请求是否需要到服务端取回页面
Keep-Alive: 保持连接不断时需要的一些信息, 如timeout=5, max=100

Last-Modified: 页面上次修改的时间
Server: 服务端软件的类型
Set-Cookie: 设置cookie, 可以存在多个
Via: 服务端的请求链路, 对一些调试场景是很重要的一个响应头

HTTPS

HTTPS基本保持了HTTP的设计思想, 它主要有两个作用, 一是确定请求的目标服务器的身份, 从而保证传输的数据不被网络中间节点窃听或者篡改.

HTTPS是使用加密通道来传输HTTP的内容, 但是HTTPS首先与服务端建立一条TLS加密通道. TLS构建于TCP协议之上, 它实际上是对传输内容做了加密, 所以从传输内容上来看, HTTPS和HTTP没有任何区别.

HTTP2

HTTP2是HTTP1.1的升级版本, 它最大的改进有两点, 一是支持服务端推送, 二是支持TCP连接复用.

服务端推送能够在客户端发送第一个请求到服务端时, 提前把一部分内容推送给客户端, 放入缓存当中, 这可以避免由客户端请求顺序带来的并行度不高, 从而导致的性能问题.

TCP连接复用, 则使用同一个TCP连接来传输多个HTTP请求, 避免了TCP连接建立时的三次握手开销, 和初建立TCP连接时传输窗口小的问题.

其实很多优化涉及更下层的协议, IP层的分包情况等, 和物理层的建连时间等都是需要被考虑的.

未完待续...

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容