学习一样技术,首先要从整体看,先从整体鸟瞰全面,才能让你从高维度看问题,mysql是我们最常用的数据库,平常我们使用数据库看到的都是一个整体,很少关注一条sql的执行流程,譬如: select * from T where ID=10;我们看到的只是一个sql语句和返回结果,却不知道内部的执行过程。
下面我们根据一条sql的执行来拆解mysql的基本架构,通过拆解来加深对mysql的理解,在使用mysql的过程中可以快速的定位问题。mysql的结构图如下:
mysql分为server层和存储引擎层。server层包含连接器、缓存、分析器、优化器、执行器等,涵盖mysql的大多数的核心服务及功能,以及所有内置函数(如日期、时间、数学、加密函数)。所有的跨存储过程的功能都在该层实现,如存储过程、触发器、视图等。
存储层负责数据的存储和提取,对于各种存储引擎来说是插件式的,如Innodb,MyIsam等。从mysql5.6开始,mysql的默认存储引擎是Innodb。创建表的时候,选择Innodb基本不会有问题。
从图中不难看出,所有的存储引擎公用一个server层。
一、连接器
要想使用mysql第一步就是连接mysql,使用的就是连接器。例如输入的sql语句:
mysql -h$ip -P$port -u$user -p密码
客户端连接mysql服务器,在完成tcp三次握手之后,开始验证身份。
1、如果输入用户名或者密码错误,返回"Access denied for user"错误,客户端结束执行。
2、如果用户名和密码验证通过,则开始验证权限,去权限表里查询你拥有的权限,之后所有的权限判断都是基于一开始读取的权限来判断。之后即使使用管理员更改了已经连接成功的用户的权限,也不会影响已经存在的连接的权限,只有新建的连接才会使用新设置的权限。
连接完成后,如果没有后续的动作,连接就处于空闲状态。show processlist的结果里sleep的就是空闲的连接。
客户端如果太长时间没有动作,连接器就会自动断开。具体时间由wait_time_out参数的值确定,改参数默认值是8小时。
如果断开之后,继续使用该连接发送请求,就会收到提示:Lost connection to MySQL server...,这个时候需要重新连接,然后再执行请求。
在数据库里,长连接是指连接成功后,如果客户端有持续的请求,则一直使用该连接。短连接是指每次执行几个查询之后就断开连接,下次再查询再建立连接。
每次连接的建立非常复杂,建议尽量减少连接次数,使用长连接。
全部使用长连接之后,有时候内存会涨的特别快,因为mysql在执行过程中临时使用的的内存的管理在连接对象里,这些内存资源只有连接被断开的时候才会被释放。如果长连接积累下来,就会内存占用太大,被系统强行杀掉,表现为mysql异常重启。解决方案:
1、定期断开长连接,使用一段时间或者执行较大的沙勋之后,断开连接,之后查询再连接。
2、mysql5.7提供函数mysql_reset_connection来初始化连接资源,这个过程不需要重连和重新做权限验证,但是会回复到刚创建完时的状态。
二、查询缓存
连接建立完之后,查询逻辑就会首先查询缓存。mysql拿到一个查询请求之后会首先到缓存查看一下,是否之前查询过这条语句。之前执行的语句和结果可能会以key-value形式,被缓存到内存里。key是查询的语句,value是查询的结果,如果在缓存里找到key,value就会直接返回给客户端。
如果查询语句不在缓存中,就会执行后面的执行阶段。执行完后,执行结果会被存入查询缓存中。
大多数情况下,不建议使用查询缓存,查询缓存利大于弊。查询缓存的失效非常频繁,只要对一个表更新,这个表上的所有查询缓存就会被情况,因此可能费劲的刚存起来还没用,就被全部清空了。对于更新压力大的数据库来说,查询缓存的命中率会非常低。除非你的业务都是静态表,使用查询缓存会提高效率。mysql8.0已经将查询缓存整个功能模块给砍掉了。
三、分析器
查询缓存没有命中,就要往下执行。首先需要指定sql命令做什么,分析器会对sql命令进行词法分析。分析每个字符串做什么,是否符合mysql语法,sql命令是否合法,由分析器来判断。
四、优化器
分析器解决做什么,优化器负责怎么做。优化器是在表里有多个索引,决定使用哪个索引,或者表jion的时候,先执行哪个表,确定连接顺序:
select * from t1 join t2 using(ID) where t1.c=10 and t2.d=20;
1、可以先取t1表中c=10的数据,再根据id连接到t2,判断t2里面d的值是否等于20
2、可以先取t2表中d=20的数据,再根据id连接到t1,判断t1里面c是否等于10;
两种执行顺序执行结果一致,但执行效率会有所不同,而优化器就是判断执行效率会最高,确定执行方案。
五、执行器
通过分析器知道做什么,通过优化器知道怎么做,于是就进入了执行阶段。
执行器首先会判断权限,如果没有就会返回没有权限的错误。
对于没有索引的表,查询的时候会调用引擎接口取表的第一行,是否id等于10,如果不是则跳过,找下一行,如果是则保存到结果集里。一直重复以上逻辑,直到最后一行。
对于有索引的表,执行逻辑差不多,只是第一次调用的是满足条件的第一行接口,之后循环调用满足条件的下一行接口,这些接口都是引擎定义好的。
rows_examined代表扫描了多少行,慢查询和explain里可以看到。