MVCC , Multi-Version Concurrency Control
什么是并发控制
程序并发读写数据通常有三种场景:
1.并发读
: 例如多个进程同时读取同一个文件
2.并发读写
: 例如,进程A在读文件 F,进程B在写文件 F
3.并发写
: 例如多个进程同时写文件 F
第一种场景不会存在并发冲突的现象,两个进程读取的文件内容都是一样的。
但第二、第三种场景下,如果不对并发进行控制,通常会产生严重的并发冲突,产生不可预知的问题。
例如:进程A读取文件到一半的时候,进程B把文件重写了,那么进程A读取的文件内容就是错误的。
为了解决并发冲突现象,我们就需要引入并发控制的机制,使得程序按照可预期的方式运行。
并发控制的种类
通常,我们把并发控制的机制分为两类:
1.悲观并发控制
: 基于锁的并发控制,2PL(2 Phase Locking):
: 1)获得锁阶段; 2)释放锁阶段。
2.乐观并发控制
: 实现算法各不相同, 一般来说都是读写时均不加锁,对数据进行写操作时,再进行验证数据是否已经有更新。如果没有更新,则进行实际写操作。
MVCC (Multi-Version Concurrency Control) 就是一种乐观并发控制算法。
MVCC介绍
回到数据库当中来,对于数据库系统来说,因为同一时间可能会存在很多用户连接,那么许多并发冲突问题就必须解决。
在这样的背景下,数据库管理系统(简称 DBMS)就必须保证并发操作产生的结果是安全的。
一种经典且实现简单的方法就是通过悲观并发控制
2PL来实现,也就是数据库事务隔离当中的最高级别:串行化(Seriailzable)。
通过2PL,DBMS 可以维护读写锁来保证可能产生冲突的事务按照一个良好的次序(well-defined) 执行,这样就可以保证 Serializability。
但是,这种基于锁的并发控制方式也有一些缺点:
- 读锁和写锁会相互阻滞(block)。
- 大部分事务都是只读(read-only)的,所以从事务序列(transaction-ordering)的角度来看是无害的。如果使用基于锁的隔离机制,而且如果有一段很长的读事务的话,在这段时间内这个对象就无法被改写,后面的事务就会被阻塞直到这个事务完成。这种机制对于并发性能来说影响很大。
多版本并发控制(MVCC)以一种优雅的方式来解决这个问题,一般来说有以下几个特点:
- 每行数据都存在多个版本,数据读取时,读取当前最新版本;
- 数据更新时copy出最新版本,多事务间无干扰;
- 数据保存时,比较copy出的版本号和最新版本,如果版本没有更新,则覆盖原纪录(commit);失败则放弃修改(rollback)。
Mysql的MVCC实现机制
实现概要
Mysql的默认的事务隔离级别 Repeatable Read 就是通过MVCC实现的。
其实现机制,概括起来有两点:
- 表的每行记录都存在多个版本,便于并发读操作;
- 写操作基于行级锁。
Mysql的MVCC实现机制在更新、删除操作时借助了锁机制,严格意义上并不能算MVCC。
实现细节
Mysql Server维护了一个自增的事务ID(Transaction ID),每当开启一个新事务,该事务就会获取一个新的唯一事务ID。
Mysql的每一行记录除了可见的字段外,还会有其他隐藏字段,其中和MVCC实现机制息息相关的有三个字段:
-
DATA_TRX_ID
, 用于表示创建该记录的事务ID; -
DATA_ROLL_PTR
, 回滚指针,指向前一个版本记录; -
DELETE_BIT
, 删除标示位,用于当前事务的可见性判断以及后续垃圾回收;
INSERT
插入操作时,新增一条记录:
- DATA_TRX_ID = 当前事务ID
- DATA_ROLL_PTR = 空
- DELETE_BIT = 0
UPDATE
更新操作时,新增一条记录 ROW_NEW 并更新老记录 ROW_OLD。
ROW_NEW:
- DATA_TRX_ID = 当前事务ID
- DATA_ROLL_PTR = ROW_OLD
- DELETE_BIT = 0
ROW_OLD:
- DATA_TRX_ID 保持不变
- DATA_ROLL_PTR 保持不变
- DELETE_BIT = 1
DELETE
更新操作时,新增一条记录 ROW_NEW 并更新老记录 ROW_OLD。
ROW_NEW:
- DATA_TRX_ID = 当前事务ID
- DATA_ROLL_PTR = ROW_OLD
- DELETE_BIT = 1
ROW_OLD:
- DATA_TRX_ID 保持不变
- DATA_ROLL_PTR 保持不变
- DELETE_BIT = 0
SELECT
查询操作时,查询出来的记录需要满足两个条件:
- DATA_TRX_ID <= 当前事务ID
- DELETE_BIT == 0
因为每一行有很多个版本,一次事务读取只会取符合条件的最大的 DATA_TRX_ID 记录。
总结
Mysql 的 MVCC实现借助了锁机制,读无需加锁,写需要加排它锁。
借助于多版本,读的并发效率大大增加。
同时,在Repeatable Read事务隔离级别下,每个事务执行期间都只能读取到该次事务发生之前的数据版本,故而可以解决脏读、非重复读、幻读等现象。