翻译自 design
关于
本文档是 Spencer Kimball 早期(2014)写的设计文档的升级版本。可能不是很完整。如果需要更加详尽的CockroachDB工作原理的说明,建议阅读体系结构相关文档。
概述
CockroachDB 是一个分布式的SQL数据库。最初的设计目标包括可扩展性、强一致性和生存性(就像它的名字一样)。CockroachDB 致力于在最小的延迟时间和人为干预下容许硬盘、物理机、机架甚至数据中心的灾难。CockroachDB 节点是对称的;一个设计目标是以最少的配置且无需外界依赖进行同源部署(即使用同一个二进制文件)。
数据库的入口是SQL接口。CockroachDB 集群中每一个节点充当一个客户端SQL网关。SQL网关将客户端SQL语句变换并执行到 key-value(KV)操作,并能在集群上按需分发和返回结果给客户端。CockroachDB 实现了一个单一、庞大的有序键值对映射,其键值都是byte字符。
KV映射在逻辑上是由叫做range的keyspace的小片段组成的。每一个range都由存储在本地KV存储引擎中的数据作支持(我们使用 RocksDB,LevelDB的一个变体)。Range 的数据会被复制到一个可配置数量的额外 CockroachDB 节点中。Range 会被合并或切分以维持在是设定的大小,默认为 64M
。相对较小的尺寸可以加快节点的错误修复和节点、容量甚至读写负载的再平衡。但是,这个尺寸必须和系统压力平衡,以便有更多range来管理。
CockroachDB 实现了水平可伸缩性
- 增加更多节点并通过集群中每个节点的存储量来增加集群的容量(由可配置的复制因子来切分),理论上可以扩大至4E字节的逻辑数据量;
- 客户端查询可以被发送到集群中任意的节点,且查询会被独立操作(w/o 冲突),这意味着总吞吐量是影响集群中节点数量的线性因素。
- 查询操作会被分发(参考:分布式 SQL),因此单次查询操作的总吞吐量可以通过增加更多节点来扩大。
CockroachDB 实现了强一致性
- 在每个键值range中同步复制数据时使用分布式一致性的协议。我们选择使用 Raft 一致性算法;所有的一致性状态都存储在 RocksDB 中。
- 单一或批量地突变到单个 range 可以通过range的Raft实例进行调节。Raft保证了ACID语义。
- 逻辑上的突变会影响多个range使用分布式事务的语义。CockroachDB 使用了一个高效的 non-locking distributed commit(非锁定分布式提交) 协议。
CockroachDB 实现了强生存性
- range 副本可以共同定位在一个单独的数据中心以达到较低的延迟和降低磁盘或机器的故障率。其可以进行分布式的部署以承受交换机的故障。
- range 副本可以部署在跨越不同地域的数据中心以承受网络、电力甚至更大的灾难场景带来的后果,比如(e.g. { US-East-1a, US-East-1b, US-East-1c }, { US-East, US-West, Japan }, { Ireland, US-East, US-West}, { Ireland, US-East, US-West, Japan, Australia })。
CockroachDB 提供了快照隔离级别(snapshot isolation 简称SI)语义和序列化快照隔离级别(serializable snapshot isolation简称SSI)语义,容许外部一致性、无锁定读写—--从历史快照时间戳和从当前系统时间读写(系统时间指从时间设备如:钟表、电脑等计时设备等读到的时间值,它是我们对真实时间的度量值,但跟真实时间总是不可能完全一致)。SI隔离级别提供无锁定读写但会产生写偏序(译注:因为每个事务在更新过程中看不到其他事务的更新结果,所以可能造成各个事务提交之后的最终结果违反了一致性)。SSI隔离级别消除了写偏序,但在竞争频繁的系统中引起了性能的下降。SSI 隔离级别是默认的隔离级别,用户必须有意识地决定是否用性能换取正确性。CockroachDB 实现了严格一致性(线性一致性)的一种有限形式,为任一观察者或观察者链提供有序化。类似于 Spanner 目录,CockroachDB 允许对任意数据地域进行配置。允许配置复制因子、存储设备类型、数据中心位置,以优化性能或者提高可用性。但与 Spanner 不同,地域是整体的,不允许在实体组层面进行更细粒度数据的移动。