order by 方式
- 排序是存储引擎层来做的。
- 排序也是有多种策略可以供选择和优化的,与索引一样,在某些情况下可能会使用错误的策略,导致排序成本过高。这时也和索引一致,可以通过强制使用某种排序方式来降低排序速度。
- 排序分为内存排序和文件排序。explain file_sort并不代表使用了文件排序,只是说明需要对接过数据进行排序。
order by 存在两种排序方式。
通过max_length_for_sort_data(行最大长度配置)来决定是使用全字段排序,还是rowId排序。
对于这两种排序优先级来说,全字段排序优先级最高。通常InnoDB认为,rowid排序会要求回表多造成磁盘读,因此不会被优先选择(数据存储在磁盘上,回表通常要去磁盘加载数据到Buffer Pool)。
除了两种排序方式外,还有一种排序算法:优先队列排序算法。该算法的使用取决于返回结果的多少。通常我们在分页场景中都会使用到该算法,因为返回数据较少,(limit 20)。
全字段排序
在max_length_for_sort_data(排序数据一行最大长度)足够时,会采用全字段排序的方式。
- 初始化Sort Buffer 字段(查询全部字段)
- 确认使用的索引,并将通过索引获取数据可能需要回表查询全部数据。
- 将全部数据 存入sort buffer
- 基于排序字段排序
- 返回排序结果
rowId 排序
在max_length_for_sort_data(排序数据一行最大长度)不足时,会使用rowId排序方式。
- 初始化sort buffer字段 (排序字段+id)
- 确认使用的索引,然后回表查询排序字段,
- 将字段放入 sort buffer中
- 执行排序
- 回表查询结果数据(返回全字段)
- 返回结果
思考: 如果 索引已经包含排序字段,那么还需要回表去查排序字段么?比如,A B联合索引,排序结果是 B, A。
猜想: 如果是rowId排序,应该是不需要回表查字段的,剩余排序方式一致。
优先队列排序算法
优先队列排序算法可以理解为,假如有10000条数据为只需要最大的10条。那么,此时我是否需要保证10000条数据都有序呢?
其实从效率上来讲,肯定是没有必要的。因为只需要10条,那么我就只用保证10条有序就OK。方式就是,创建一个队列,将10条数据放进队列中,后续数据一次进行比较,如果大于其中任何一条,替换该位置数据即可。这样排序效率远大于归并排序。
因此InnoDB在情况允许时会使用优先队列排序算法。
思考:如果此时需要返回1000条,那么还会用到有限队列排序么?
解答:从逻辑上来讲,优先队列排序效率也不是一定高于归并排序的。比如一共100条数据,我要取最大99条,那么需要一个 99 条数据的队列,然后 最后一条数据要依次比对 100 次, 然后 再对 队列中 99 条数据 做排序。排序次数都一致。
而且,由于队列原因,占用内存也比较高。因此,除了数量外,还需要考虑内存占用情况。如果超过 sort buffer 大小那么也不会采用优先队列算法。
filesort 理解
如何判断到底是内存排序还是磁盘临时文件排序
问题思考
消除 filesort
select b from t where a = 1 order by b;
此时 如何创建索引?
select b from t where a in (1,2) order by b;
此时如何避免filesort
select b from t where a in (1,2) order by b limit 100000,100;