说这个面试题,先来回顾一下B+树、B-树、平衡二叉树、红黑树的概念
平衡二叉树
- 平衡二叉树又被称为AVL树
- 平衡二叉树是一颗空树或者它的左右两个子树的高度差的绝对值不超过1,并且左右子树也是平衡树
- 非叶子节点值大于左子节点值而小于右子节点值
- 非叶子节点最多拥有两个子节点
红黑树
- 每个节点要么是红色要么是黑色
- 根节点是黑色
- 每个叶子节点(NIL)是黑色
- 每个红色节点的两个子节点一定为黑色
- 任意一个节点到每个叶子节点的路径都包含数量相同的黑色节点
- 如果一个节点存在黑子节点,那么该节点肯定有两个子节点
B-树
- 每个节点中,都包含数据(key和data域)和指针,相互间隔
- 叶节点具有相同的深度,叶节点的指针为空
- 节点中的数据索引从左到右递增排列
- 所有索引元素不重复
B+树
- 非叶子节点中不存储data,只存储索引,可以放更多的索引
- 叶子节点包含所有索引字段
- 叶子节点包含数据(key和data域)和指针
- 叶子节点用指针连接,提高区间访问的性能
平衡二叉树不足
- 考虑到极端情况下,每次插入的数据都比上一次插入的数据大,那么用平衡二叉树就会以线性方式进行存储,时间复杂度为O(n)。数据量很大时,在mysql中一张表存储百万条数据是很正常的一件事,这样会导致树的深度更深,mysql读取时消耗大量io。
- mysql进行过磁盘读取时,是以页为单位进行读取,每个节点表示一页。而平衡二叉树每个节点存储一个关键词,导致存储空间被浪费。
B-树相比平衡二叉树优点
- 每个节点存储多个多个关键词,合理利用空间大小,每次mysql进行读取时,都会进行预读取,每次把该节点数据读取出来并存储到内存中
- B-树中每个节点存储的关键词变多,导致存储相同数量的数据,B-树的深度相比平衡二叉树深度更浅,减少了数据的查找次数和复杂度
B+树对比红黑树
- 红黑树多用于内部排序,即全放在内存中
- B+树多用于外存上时,B+也被成为一个磁盘友好的数据结构
- 红黑树和平衡二叉树有相同缺点,每个节点存储一个关键词,数据量大时,导致红黑树的深度很深,mysql每次读取时消耗大量io
B+树相比B-树的优点
- B+树非叶子节点只存储key值,而B-树存储key值和data值,这样B+树每次读取时可以读取到更多的key值
- mysql进行区间访问时,由于B+树叶子节点之间用指针相连,只需要遍历所有的叶子节点即可;而B-树则需要中序遍历那样遍历
- B+树非叶子节点只存储key值,而B-树存储key值和data值,导致B+树的层级更少,查询效率更高
- B+树所有关键词地址都存在叶子节点上,所以每次查询次数都相同,比B-树稳定
为什么高度为3的B+树存储千万级数据?
解释这个问题的前提,mysql使用InnoDB引擎,mysql默认页文件大小为16k
假设我们一行数据大小为1k,那么一页存储16条数据,也就是说一个叶子节点能存储16条数据
再来看看非叶子节点,假设主键ID为bigint类型,那么长度为8B,指针大小在InnoDB引擎中的大小为6B,一共14B,那么一页中可以存放16k/14B=1170个(主键+指针)
也就是说高度为2的B+树可以存储的数据为:117016=18720条;高度为3的B+树可以存储的数据为:11701170*16=21902400(千万条数据)
这也是为什么mysql可以支撑千万级别数据的原因
文章也会持续更新,可以微信搜索「 迈莫coding 」第一时间阅读。