基本概念
数据库的索引类似书的目录,我们通过标题及其对应的页码便可快速的找到标题对应的内容。在数据库中,可以根据索引快速定位记录的位置,然后从磁盘读出数据。因此,简单来说,索引就是帮助我们快速定位记录位置的数据结构,可以极大地提高查询性能。
聚簇索引和非聚餐索引
在介绍索引的工作原理之前先给大家介绍下聚簇索引和非聚簇索引的概念。
- 聚簇索引
《数据库系统概念》中的定义:如果包含记录的文件按照某个搜索码指定的顺序排序,那么该搜索码对应的索引称为聚簇索引(clustering index),聚簇索引也称为主索引(primary index)。通俗来说就是对于数据库中的表R,如果表中的记录按照某列属性p顺序存储在磁盘文件上,则属性p对应的索引称为聚簇索引。 - 非聚簇索引
《数据库系统概念》中的定义:搜索码指定的顺序与文件中记录的物理顺序不同的索引称为非聚簇索引或辅助索引。
在innodb引擎中,数据是按照主键的顺序来存储的,因此主键对应的索引为聚簇索引;由于一张表只有一个索引,所以一张表有且只有一个聚簇索引。除主键外,其他属性都可建立非聚簇索引,所以一张表可以有多个非聚簇索引。介绍完聚簇索引和非聚簇索引,下面我们具体剖析下innnodb索引的工作原理。
innodb索引工作原理
在innodb中,索引的数据结构是B+树,InnoDB 的 B+树索引分为主索引(聚簇索引)和辅助索引(非聚簇索引)。主索引的叶子节点 data 域记录着完整的数据记录。辅助索引的叶子节点的 data 域记录着主键的值,因此在使用辅助索引进行查找时,需要先查找到主键值,然后再到主索引中进行查找。为了更加形象的描述索引的工作方式,这里通过一个例子来进行说明。如下是一张课程表cource(id, name, score):
id | name | score |
---|---|---|
101 | 数据库系统原理 | 5 |
102 | 操作系统 | 5 |
111 | 数据结构 | 5 |
112 | 算法导论 | 5 |
上表中,主键为id,我们画出该表的主索引结构,如下:
如上图所示,B+树的非叶节点只充当索引不存数据,叶子节点存储表记录且通过指针串联起来,方便范围查询。当执行sql语句'select * from course where id=111'时,索引执行过程如下:
从上图可以看出,从根节点开始,经过两次查找便找到id=111的记录所在位置,假如索引完全从磁盘读取,那么经过两次磁盘io便可读出数据,如果不使用索引,则需在磁盘上遍历整个表记录,平均io次数为n/2(n为表记录数)。显而易见,使用索引可以极大加快查询的速度。
以上是通过主索引的方式查找记录,但是在实际使用中,往往有通过其他字段查询的需求,如通过查询课程名找到相关记录,由于课程名不是主键,不能利用主索引加速查询,因此为了加快查询速度,可以对课程名创建辅助索引。辅助索引结构如下:
从上图可以看出,辅助索引依然是一棵B+树,和主索引不同的是,辅助索引的叶子结点的值不是一条记录的完整数据,而是存的记录对应的主键值,因此,要查找某条记录的完整值还需要到主索引上去查询。如sql语句'select * from course where name="数据结构"'的执行过程:首先通过图3中辅助索引找到'数据结构'对应的主键'111',然后拿着主键到图一中的主索引查找完整数据。
以上便是辅助索引的执行过程。可以看出每添加一个辅助索引就会增加一棵B+树,索引带来的好处是提高查询性能,但是对于写入,每插入一条记录需要维护所有B+树,影响写入性能,因此,索引不能随意添加,应该按需创建。
总结
本文介绍了数据库中聚餐索引及非聚簇索引的概念,同时引出了innodb索引的工作原理并举例介绍了innodb索引的执行过程。帮助开发人员了解innodb引擎索引的内在原理,在开发实践中充分且合理的利用索引,提高程序性能。