首先厘清这样几个概念:高并发、缓存、击穿
高并发
高并发很好理解,它指的是服务在同一时刻被大量请求访问,举个例子,大麦网上某歌星的演唱会门票,在今晚10点整开票,那对于大麦网就需要有机制应对10点这个时刻大量请求访问服务的场景;或者淘宝双十一,大家在0点准备清空之前屯好的商品。
缓存
以一个Web应用的架构为例:nginx服务器 + Web服务器 + 缓存 + 数据库
nginx服务器往往作为统一入口和负载均衡,成为接收web请求的第一个模块。当我们在设计一定规模的Web服务时,往往把同一套服务代码部署到多个Web服务器上,目的是保证系统性能和避免Web服务挂掉使得整个应用不能使用,此时,nginx作为反向代理,向客户端暴露唯一访问入口。同时,nginx可以根据每个节点的网络流量和当前状态等指标,判断网络请求应流向哪一台Web服务器。
Web服务器不必多说,根据项目情况可能由前后端两个不同的服务或服务器组成,当然也可能没有分离而在一台服务器中。常用的Web容器比如Tomcat、Apache等。
缓存是为了提升系统数据读取性能的重要中间件,常用的有Redis和Memcache。根据业务需求可能是分布式或单例。对缓存有一个初步的认识可以从认识程序执行开始:程序源码本身存放在硬盘上,当执行程序时,代码会被读入到内存,再交由cpu运算与执行,这期间cpu会对硬盘上的数据库进行CRUD操作,但是我们知道,硬盘的读写速度比cpu的计算速度要慢很多,所以我们选择内存去存放一些可能被反复读写的数据,以提升整个程序执行的性能。以Redis举例,它作为一个非关系型数据库,所有数据以键值对的形式存储,相较于Mysql、Oracle等关系型数据库,IO会高效很多,同时它基于内存而大型数据库是基于硬盘,所以从计算机物理结构来说性能也更高一筹。由于Redis基于内存,数据的存储能力自然不能和硬盘相比,所以我们的数据在缓存中有三个元素非常关键:Key、Value、Expire,也就是键值和过期机制。
数据库的概念大家一定最熟悉,在本文提到的Web架构中,开发人员会根据业务场景需要,对数据库和Redis进行“双写”,也就是说,对于一些读写相对频繁的内容,开发人员会即写入数据库,也写入Redis。
缓存击穿
以上说了这么多,到底缓存击穿是个怎样的场景呢,听起来很fancy,实际很好理解:
在存在缓存机制的情况下,大量的Web请求(高并发)连带的数据操作,没有经过缓存而是直接怼到了数据库上,造成数据库宕机。
比如天猫网在双十一当天会在页面显示目前全网成交的交易额。那么整个网站上每一笔消费都会对该数据产生影响,即存在写入也存在读取(因为要显示出来)。那么一定有这样一个时刻,比如说0点,瞬间有十几万甚至上百万的请求要同时读取和写入该field。如果没有缓存,每一个请求连带的数据操作都需要应用与数据库生成connection,而数据库的最大连接数是有限的,一旦超过数据库会直接宕机,所以这个过程中一定有缓存的存在。但我们细想一下,即便有了缓存,在0点那个时刻,由于还没有请求访问过“交易总额”这个字段,也就是说理论上缓存中还没有写入这个key-value,那么在最开始的时刻,是否也有数据库宕机的可能呢?另外,我们有说道缓存中的数据会有过期机制,即便“交易总额”被缓存了下来,一旦过期,岂不是数据库又会直面所有数据操作?
是的,要回答以上两个问题,就需要了解缓存击穿的常用解决方案:互斥锁、异步构建缓存和布隆过滤器,下一章继续……