分区是把数据分割到多个Redis实例的处理过程,每个redis实例只是保存你所有key的一个子集。
分区的优势
在redis server中,分区有两个主要目标:
它可以利用多台计算机的内存之和,构造出更大的数据库。没有分区,你就会被一台计算机支持内存的大小所限制。
它可以让我们架设多核cpu和多台计算机,来调节计算能力;利用多台计算机和网络适配器,让我们扩展网络带宽。
分区的缺点
在分区里,redis的特性运行的不是很好:
多个key的操作通常不能支持。例如你不能交叉操作在两个不同实例上的集合(实际上有方法能实现,但不直接)。
操作多个key的事务,通常不能用。
分区通常是以key为粒度,不能操作数据集。
用户分区的时候,数据处理更复杂,例如你需要处理多个RDB / AOF文件,从多个实例和主机备份持久化数据文件。
增加和删除容量也是复杂的。例如:redis集群大多数支持在运行时增加、删除节点的透明数据平衡的能力,但是类似于客户端分区、代理等其他系统则不支持这项特性。然而,一种叫做presharding的技术对此是有帮助的。
分区基础知识
它有不同的分区准则。想像一下,我们有四个redis实例R0,R1,R2,R3,还有很多key像这样user:1,user:2..., 我们可以找到不同的方法把给定的键存储到其中一个实例。
其中一个最简单的方法是执行范围分区,把对象范围映射到具体的redis实例中,这是一个现实的方案。例如:用户users的id从0到10000放入到实例R0,从10001到20000放到实例R1等等。
这种体系是可以工作,并且已经切实用到实践中了。但它也有缺点,它需要一张额外的表来存储这个范围指向哪个redis实例。不同的对象都需要一张这样的表,你需要管理它们。由此看出,范围分区比其它分区方法效率低,因此不那么爱欢迎。
除了范围分区,还有一个hash分区可选。这个方案对任何key都适用,也无需是object_name:这种形式,像下面描述的一样简单:
用一个hash function将一个key名称转化成一个数字(e.g., 用crc32hash function)。例如: 一个key名为foobar,调用crc32(foobar),将会输出数字93024922。
将这个数据以4取模, 就会得到0到3之间的数字,这个数字正好映射到我们四个redis实例中的一个。例如:93024922取模 4 得到 2,我们就知道foobar这个key应该被存储到R2这个实例上。注意:许多编程语言中是用 % 取模,其实就是除法的余数。
还有许多其它的方法进行分区,但通过这两个例子你应该已经知道它的思想了。还有一种更高级的hash分区形式,叫作consistent hashing, 它通过一些redis客户端和代理 来实现的。
分区不同的实现
分区可以通过一个软件的不同部分来实现。
客户端分区,它的意思是通过一个(写或读的)key,由客户端来直接选择正确的节点。许多客户端都实现了这个功能。
代理协助分区,它由客户端发送一个代理请求,这个代理可以请求redis server,而不是由客户端直接请求redis实例,代理通过配置信息会保证转向正确的redis实例,并且返回结果给客户端。Twemproxy提供了代理协助分区.
查询路由,你可以发送一个查询到随即的一个实例,这个实例将会让这个查询转向正确的节点。redis的集群,通过客户端的帮助,实现了一个路由查询的复杂形式。
存储或缓存?
redis的分区,不管是用作数据存储还是用作缓存,虽然概念上是一样的,但用作数据存储时有个很大的限制。用作数据存储时,一个给定的key必须一直
映射到相同的redis实例。当用作缓存时,如果一个给定的节点不可用那不是一个大的问题,可以变更key和实例间的映射,让它变的可用(这个体系的作用
是响应我们的查询)。
如果一个给定的key对应的节点不可用,一致性哈希的实现,可以把它切换到其它的节点。
类似地,如果你新建了一个新的节点,部分新key将开始存储新的节点上。
主要的概念有以下两点:
1、如果redis用作缓存,扩展和收缩用一致性哈希是容易的。
2、若果redis被作为持久化数据库,我们需要提供节点和键值的固定映射,还有一组固定的redis实例节点。否则我们需要一个系统来为我们增加或者删除键值和节点,目前,redis集群可以做到这点。