数据库事务的并发控制

1、写在前面

1.1 为什么要并发控制

如果事务在并发执行时,来自各个并发事务的所有指令的执行控制都是由操作系统负责,那么许多调度都是可能的。这样,很可能会导致数据库处于不一致的状态。所以,必须保证数据库执行的任何调度都能是数据库保持一致状态,这是数据库中并发控制(concurrency-control)模块的功能。
具体地说,数据库的并发控制模块就是为用户提交的多个事务产生满足需求的调度。

1.2 并发控制的相关内容

1.2.1 内容列表

为了理解这一过程,我们需要了解:

  • 并发中有关调度的相关基本概念
  • 串行化及其判定
  • 可恢复调度与无级联调度
  • 事务的隔离级别等相关信息。

1.2.2 内容概要

基本概念部分,略过不表。
串行化及其判定部分大致介绍了如何判定事务在并发执行时是否和先后顺序执行时效果一致。明确了这部分,DBMS在为事务选择并发调度时,才知道最优解是什么(也就是,执行效果和先后执行相同)。
可恢复调度和无级联调度部分是在从故障恢复的角度讲述,如果一个并行执行的调度中间发生故障,为了保证事务的原子性,必须进行回滚恢复,然而,有时恢复的代价很大,有时甚至无法恢复。这部分对这些情况分别介绍。
事务的隔离级别部分讲述,在事务并发的过程中,如果要保证任何时刻绝对的数据正确,代价是很高的。比如,好多时候就无法实现并发,只能是串行执行。在一些联机的场景中,这是不能接受的。隔离级别就是为了兼顾效率的产物,通过允许不同程度地允许,并发过程中数据的暂时不一致,来换取更好的执行效率。

2、几个基本概念

  • 调度(schedule)
    事务在并发执行时,各个事务中的不同指令的先后执行顺序称为调度。比如事务T1由两条指令a和b组成,事务T2由c和d组成。那么,这两个事务在并发执行时abcd、acbd等的这些执行顺序都称之为调度。
  • 串行的(serial)
    如果在一个调度中,属于同一个事务的指令紧挨在一起,我们就称这个调度是串行的。上面的例子中,T1和T2的串行调度有两种,分别是abcd和cdab。对于n个事务组成的事务组,共有n!个不同的串行调度。
  • 可串行化的(serializable)
    如果一个调度等价于一个串行调度,那么就称该调度是可串行化的。显然,串行调度是可串行化的。

3、调度的可串行化

3.1 串行化与冲突可串行化

串行调度是可串行化的,但是,如果许多事务的指令交错执行,则很难确定一个调度是否是可串行化的。事务就是程序,要确定一个事务有哪些操作,多个事务的不同操作如何相互作用,是非常困难的。
因此,这里我们不会考虑一个事务可以对一个数据项执行的所有不同类型的操作,而只考虑两种操作:read和write。我们假设,在数据Q上的read(Q)和write(Q)之间,事务可以对驻留在事务局部缓冲区中Q的拷贝执行任意操作序列。按这种模式,从调度的角度来说,事务唯一重要的操作就是read和write。
假设I和J是不同事务在相同数据项上的操作,那么当它们全是read时,它们的次序无关紧要。但是,当其中至少有一个书write时,它们的顺序将直接影响最终事务的执行结果,这时我们说I和J是冲突(conflict)的。
如果调度S经过一系列非冲突指令次序交换转换成S',我们称S和S'是冲突等价(conflict equivalent)的。
可以理解,不是所有的串行调度之间都是冲突等价的。
如果一个调度与串行调度冲突等价,则称该调度是冲突可串行化(conflict serializable)的。

3.2 冲突可串行化的判定

这里给出一个简单有效的方法,来确定一个调度是否冲突可串行化。假设S是一个调度,我们由S构造一个有向图,称为优先图(precedence graph)。该图由定义为G=(V,E),其中V是顶点集,E是边集,顶点集由所有参与调度的事务组成。如果事务Ti和Tj满足下列三个条件之一,优先图中就存在边Ti->Tj:

  • 在Tj执行read(Q)之前,Ti执行write(Q)。
  • 在Tj执行write(Q)之前,Ti执行read(Q)。
  • 在Tj执行write(Q)之前,Ti执行write(Q)。

这里的意思是,事务中冲突的操作决定了事务的执行顺序。所以,如果优先图中存在边Ti->Tj,则在任何等价于S的串行调度S’中,Ti必出现在Tj之前。
这样,如果调度S的优先图中有环,则调度S是非冲突可串行化的,如果优先图中无环,则调度S是冲突可串行化的。
串行化顺序(serializability order)可通过拓扑排序(topological sorting,用于计算与优先图的偏序相一致的线形顺序)得到。一般而言,通过拓扑排序可以获得多个线形顺序。
因此,要判断冲突可串行化,需要构造优先图并调用一个环检测算法。基于深度优先的环检测算法需要n^2数量级的运算,其中n是优先图中的定点数(即事务数)。

3.3 冲突等价的局限性

有可能存在两个调度,它们产生的结果相同,但它们不是冲突等价的。比如下面的例子:


调度S

利用前面提到的优先图判定方法,上图的调度S并不与串行调度<T1, T2>等价。然而,它们的执行结果却相同。
这个例子可以看出,调度等价的定义实际上是比冲突等价更为宽松,也就是说存在不是冲突等价的两个等价调度。
对于计算机来说,要判定调度S与串行调度<T1, T2>产生的结果相同,必须分析T1和T2所进行的计算,而不只是分析read和write操作。上面的例子比较简单,由于从数学的角度,递增和递减是可以交换的,导致两个调度等价。实际中,一个事务可能会表示为一条复杂的SQL语句,或一个有JDBC调用的Java程序等,这种判定的计算代价很大。
除此之外,也存在一些别的纯粹基于read和write操作的调度等价定义,比如视图等价,其中有视图可串行化的概念。这里暂且不做介绍。

4、事务的隔离性和原子性

不管是什么原因,如果事务Ti失败了,我们必须撤销该事务的影响以确保其原子性。在允许并发执行的系统中,原子性要求依赖于Ti的任何事务Tj(即Tj读取了Ti写的数据)也中止。为了确保这一点我们需要对系统所允许的调度类型做一些限制。

4.1 可恢复调度

如下所示的调度,事物T2只执行一条指令:read(A)。我们称之为部分调度(partial schedule)。因为T1中没有包括commit或abort操作。注意T2执行read(A)指令后立即提交。因此T2提交时T1仍处于活跃状态。现假定T1在提交前发生了故障。T2已经读取了T1写入的数据A的值(我们说T2依赖于T1)。因此,我们必须终止T2以保证事务的原子性。但T2已经提交,不能再中止。这样就出现了T1发生故障之后不能正确恢复的情形。

不可恢复调度示例

上面例子中的调度是一个不可恢复调度的例子。一个可恢复调度(recoverable schedule)应满足:对于每对事务Ti和Tj,如果Tj读取了之前由Ti所写的数据项,则Ti应该先于Tj提交。上面的例子如果是可恢复的,那么T2应该推迟至T1提交之后再提交。

4.2 无级联调度

即使一个调度是可恢复的,要从事务Ti的故障中正确恢复,可能需要回滚若干事务。当其它事务读取了Ti写入的数据项时就会发生这种情况。下面调度中,如果T1发生故障,回滚。由于T2读取了T1写入的数据A,T2必须回滚。同理,T3也必须回滚。这种因单个事务故障导致一系列事务回滚的现象称为级联回滚(cascading rollback)。

级联回滚示例

级联回滚导致大量的撤销工作,这是我们不希望的。所以要对调度进行限制,避免级联回滚发生,这样的调度称为无级联调度。规范地说,无级联调度(cascadeless schedule)必须满足:对于事务Ti和Tj,如果Tj读取了先前由Ti所写的数据项,则Ti必须在Tj这一读操作之前提交。
容易理解,一个无级联调度也是可恢复调度。

5、事务的隔离级别

5.1 隔离级别定义和解释

  • 读未提交(read uncommitted)
    这是最低的隔离级别。意思是,事务在并发时,允许一个事务读取另一个事务已经修改但还未提交的数据。这种情况下,会导致脏读。脏读针对的是更新操作。比如,事务T1更新了数据库中记录A的值,没有提交,T2读取了记录A,然后,T1回滚。这样,T2读取到的就是一个错误的数据。这种现象就叫脏读。
  • 读提交(read committed)
    事务在并发执行时,只允许读取其它事务已经提交的数据。
    这样,可以解决数据的脏读问题,但是并不能保证可重复读。比如,事务T1中有两次对记录A的读取操作,在这两次读取操作之间,事务T2修改了记录A的值并提交。这样,T1两次读取到的值就会不同,这种现象成为不可重复读。
  • 可重复读(repeatable read)
    事务在并发执行时,只允许读取已经提交的数据,而且一个事务在两次读取一个数据项期间,其他事务不得更新该数据。这样,就保证了数据的可重复读。但是,也存在幻读的问题。
    幻读,幻读针对的是插入操作。比如事务T1中选出数据库中符合条件的记录,然后,事务T2又向数据库中插入了一条数据,也符合T1的筛选条件,然后提交,这时,T1第二次查找符合条件的数据,就会发现结果集中多了一条记录。就好像出现了幻觉,所以称为幻读。
  • 可串行化(serializable)
    通常保证可串行化调度。但是,一些数据库对该隔离级别的实现,在某些情况下允许非串行化执行。

5.2 上述事务隔离级别的说明

从上到下,隔离级别依次提高。每个隔离级别的定义和解释中,说的都是该级别的最低要求。
所有的隔离级别都不允许脏写(dirty write),即如果一个数据项已经被另外一个未提交或者终止的事务写入,则不允许其它事务对该数据项进行写操作。
实现上,大多数数据库默认的事务隔离级别是Read committed,比如Sql Server , Oracle。Mysql的默认隔离级别是Repeatable read。
SQL中,可以显示设定事务的隔离级别。如可以通过语句set transaction isolation level serializable;来显示将隔离级别设置为可串行化。另外,修改事务隔离级别必须作为事务的第一条语句执行。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容