BASE理论
BASE理论是Basically Available(基本可用),Soft state(软状态)和Eventually consistent(最终一致性)的简称。BASE理论是对CAP中一致性和可用性权衡的结果,是基于CAP定理演化过来的,其核心思想是即使无法做到强一致性(Strong consistency),但是每个应用都可以根据自身的业务特点,采取适当的方式来使系统达到最终一致性(Eventually consistent)。
基本可用
基本可用是指分布式系统在出现不可预知故障的时候,允许损失部分可用性--但是不等价于系统不可用。
- 响应时间上的损失:正常情况下,搜索引擎会在0.5秒内返回给客户查询结果,但是如果出现故障,查询结果会延迟1-2秒,但是在客户的可接受的范围内
- 功能上的损失:大促时,因为并发量变高,为了保证购物系统的稳定性,部分消费者会被引导到一个降级的页面,这样能保证一部分消费者能正常使用。
弱状态
弱状态也称做软状态,软状态是与硬状态是相对的,是允许系统中的数据存在中间状态,并认为中间状态不会影响系统的整体可用性,就是允许系统在不同节点的数据副本之间进行数据同步的过程存在延迟。
最终一致性
指系统中所有的数据副本,在经过一段时间的同步后,最终能够达到一个一致的状态。所以,最终一致性的本质是需要系统保证最终数据能够达成一致,而不需要实时保证系统数据的强一致性。
最终一致性是一种特殊的弱一致性:系统能够保证在没有其他的更新操作的情况下,数据最终一定能够达到一致的状态,因此所有客户端对系统的数据访问都能够获取到最新的值。同时,在没有发生故障的前提下,数据达到一致状态的时间延迟,取决于网络延迟,系统负载和数据复制方案设计等因素。
最终一致性的变种:
- 因果一致性(Causal consistency):
如果进程A在更新完某个数据后通知了进程B,那么进程B之后对该数据项的访问都应该能够获取到进程A更新后的最新值,并且如果进程B要更新数据项,务必是基于进程A更新后的最新值,即不能发生丢失更新情况。同时,与进程A无因果关系的进程C的数据访问则没有这样的限制。 - 读己之所写(Read your writes)
进程A更新一个数据项后,它自己总是能访问到更新过的最新值,而不会看到旧的值。也就是说,对于单个数据获取来说,读取到的数据一定不会比自己上次写入的值旧。所以读己之所写也可以看做是一种特殊的因果一致性。 - 会话一致性(Session consistency)
会话一致性将对系统数据的访问过程框定在了一个会话中:系统能保证在同一个有效的会话中实现“读己之所写”的一致性,就是说,执行更新操作后,客户端能够在同一个会话中始终能够读到该数据项的最新值。 - 单调读一致性(Monotonic read consistency)
指如果一个进程从系统中读取一个数据项的某个值后,那么系统对于该进程后续的任何数据访问都不应该返回更旧的值。 - 单调写一致性(Monotonic write consistency)
一个系统需要保证来自同一个进程的写操作被顺序地执行。
在实际系统实践中,可以将其中的若干个变种互相结合起来,以构建一个具有最终一致性特征的分布式系统。除了大型分布式系统会涉及最终一致性,关系型数据库也都采用了最终一致性模型。关系型数据库大多数都会采用同步和异步方式来实现主备数据复制技术。在同步方式中,数据的复制过程通常是更新事务的一部分,所以在事务完成后,主备数据库的数据就会达到一致。在异步方式中,备库的更新往往会存在延迟,这取决于事务日志在主备数据库之间传输的时间长短,如果传输时间过长甚至在日志传输过程中出现异常无法及时将事务应用到备库上,显然,从备库中读取的数据将是旧的,这样就出现了数据不一致的情况。采用多次重试或人为的数据订正,关系型数据库还是能够保证最终数据达到一致--这就是系统提供最终一致性保证的经典案例。
总之,BASE理论面向的是大型高可用可扩展的分布式系统,和传统的ACID特性是相反的,不是ACID的强一致性,而是通过牺牲强一致性来获得可用性,并允许数据在一段时间内是不一致的,但最终会达到一致状态。同时,在实际的分布式场景中,不同的业务单元和组件对数据一致性的要求是不同的,在具体的分布式系统架构设计中,ACID特性和BASE理论会结合在一起用。