mongodb——分布式

复制集

mongodb在集群环境中，通过复制的形式对数据进行冗余。mongodb复制集有Primary、Secondary、Arbiter三种角色。以三节点为例，一般一个Primary两个Secondary较为常见。一个复制集群最多有50个节点，但是最多有7个投票节点。

Primary：主节点，副本集接收写操作的唯一成员。mongodb集群在主节点上接收写操作，并写入操作日志oplog。Secondary节点复制oplog并将操作应用于自身数据集。集群最多有一个主节点，如果主节点挂了，集群会重新选举主节点。
Secondary：从节点，维持数据副本。从节点从主节点的操作日志中同步自己的数据。复制集可以有一个或多个从节点。虽然从节点无法接收写操作，但是可以接收读操作，可能读取的不是最新数据。从节点可以通过配置优先级防止执行选举操作，从而可以长期作为数据备份使用。可以设为隐藏节点，从而禁止读操作。可以配置为延时节点，保留历史的快照，用于数据库回滚。
Arbiter：不保存数据，也不成为主节点。投票节点仅仅是为了保持选举成员为奇数而存在。尽量不要再主从节点上同时运行头片节点。不要在投票成员为奇数时引入投票节点。投票节点对硬件要求低，所以可以比较随意的部署，只要不和主从节点放在一起。

选举

通过心跳检测确定节点是否存在，当发起Primary投票时，获得大多数成员投票支持的节点，会变为Primary。其他节点为Secondary。

假设复制集内投票成员（后续介绍）数量为N，则大多数为 N/2 + 1，当复制集内存活成员数量不足大多数时，整个复制集将无法选举出Primary，复制集将无法提供写服务，处于只读状态。当某个节点不能连接上其他节点，那么它不能升为主节点。大多数的意思是大多数投票而不是大多数节点。

Primary选举除了发生在复制集初始化时，还有如下情况：

复制集被reconfig
Secondary节点检测到Primary宕机时，会触发新Primary的选举
当有Primary节点主动stepDown（主动降级为Secondary）时，也会触发新的Primary选举。

Primary的选举受节点间心跳、优先级、oplog时间等多种因素影响。

复制集成员间默认每2s会发送一次心跳信息，如果10s未收到某个节点的心跳，则认为该节点已宕机；如果宕机的节点为Primary，Secondary（前提是可被选为Primary）会发起新的Primary选举。
每个节点都倾向于投票给优先级最高的节点。优先级为0的节点不会主动发起选举。当Primary发现优先级更高的Secondary，并且该Secondary的数据落后在10s以内，则Primary会主动降级，让优先级更高的Secondary有机会成为Primary节点。

Priority0和Vote0：前者是优先级，表示不会被选为Primary，但是可能投票；后者为投票权，表示不参与投票，但是可能被选为Primary。

拥有最新optime（最近一条oplog的时间戳）的节点才能被选为Primary。
只有更大多数投票节点间保持网络连通，才有机会被选Primary；如果Primary与大多数的节点断开连接，Primary会主动降级为Secondary。当发生网络分区时，可能在短时间内出现多个Primary，故Driver在写入时，最好设置『大多数成功』的策略，这样即使出现多个Primary，也只有一个Primary能成功写入大多数。

数据同步

数据同步通过oplog日志完成。Primary上的写操作完成后，会向特殊的local.oplog.rs特殊集合写入一条oplog，Secondary不断的从Primary取新的oplog并应用于自身。
因oplog的数据会不断增加，local.oplog.rs被设置成为一个capped集合，当容量达到配置上限时，会将最旧的数据删除掉。另外考虑到oplog在Secondary上可能重复应用，oplog必须具有幂等性，即重复应用也会得到相同的结果。
当 Secondary初次同步数据时，会先进行初始化同步。从Primary（或其他数据更新的Secondary）同步全量数据，然后不断通过tailable cursor（游标）从Primary的local.oplog.rs集合里查询最新的oplog并应用到自身。
初始化同步过程如下：

从T1时间开始，从Primary同步所有数据库数据（除了local）。假设T2完成同步。并完成_id索引的创建。
从Primary同步T1-T2时间段内的所有操作日志oplog。可能部分操作已经包含在第一步的数据中，但是由于oplog的幂等性，可以重复应用。
根据Primary的索引设置，在Secondary上设置索引。

初始同步结束后，会进入增量同步。
1、 Sencondary 初始化同步完成之后，开始增量复制，通过produce线程在Primary oplog.rs集合上建立cursor，并且实时请求获取数据。
2、 Primary 返回oplog 数据给Secondary。
3、 Sencondary 读取到Primary 发送过来的oplog，将其写入到队列中。
4、 Sencondary 的同步线程会通过tryPopAndWaitForMore方法一直消费队列，当每次总数据大于100MB，或者已经取到部分数据但没到100MB，但是目前队列没数据了，这个时候会阻塞等待一秒，如果还没有数据则本次取数据完成，将数据给prefetchOps方法处理，prefetchOps方法主要将数据以database级别切分，便于后面多线程写入到数据库中。如果采用的WiredTiger引擎，那这里是以Docment ID 进行切分。
5、最终将划分好的数据以多线程的方式批量写入到数据库中（在从库批量写入数据的时候MongoDB会阻塞所有的读）。
6、然后再将Queue中的Oplog数据写入到Sencondary中的oplog.rs集合中。

读操作

默认情况下，所有的读操作发送到Primary节点。Driver可通过设置Read Preference来将读请求路由到其他的节点。

primary：默认规则，所有读请求发到Primary。
primaryPreferred：Primary优先。如果Primary不可达，请求Secondary。
secondary：所有读请求发到Secondary。
secondaryPreferred：Secondary优先。当所有Secondary不可达，请求Primary。
nearest：读请求发送到最近的节点（通过ping探测）。

写操作

默认情况下，Primary完成写操作即返回。Driver可通过设置Write Concern来设置写成功的规则。集群写请求使用{ w : majority}，即大多数节点写成功。

异常回滚：当一个Primary冗机，如果有数据未同步到Secondary，当原Primary重新加入时，如果新的Primary上已经发生了写操作，则原Primary需要回滚部分操作，以便集群与新的Primary数据保持一致。这里如果Write Concern设置不是majority，则会出现写入丢失。

分片

分片是为了应对高吞吐量和高并发量。通过水平分片，将数据集分散到不同的服务器节点上，提高整体的吞吐量和并发量。分片与复制集不同，复制集每个复制持有全部的数据（新写入的可能没有），而分片是将所有数据分散到不同的节点上，每个分片持有部分数据。比如，1TB的数据，共有四个分片，则每个分片可能只持有256GB的数据；如果40个分片，那么每个分片可能只持有25GB数据。

分片提供了以下优势：

使集群透明。mongodb分片集群使用mongos的专用路由进程，将客户端发来的请求准确路由到对应的分片上去，同时将相应拼装返回客户端。
提高集群可用性。将分片和复制集结合使用，在确保水平拓展的同时，也确保了每份数据有相应的备份。
易于拓展。mongodb分片机制可以保障集群的伸缩性。
mongodb分片集群节点：
mongos：路由节点，负责转发客户端请求。本身不保存数据，也没有分片元数据，所有配置从config server中获取。
config server：配置节点，保存了所有读写数据的方式、所有节点的信息和分片集群的配置信息。是真实数据的元数据。
shard：数据节点，存储数据信息，以chunk为单位。

chunk

chunk表示shard的一部分数据。chunk主要有两个动作：

Splitting：当一个chunk的大小超过了配置的chunksize，mongodb的后台进程会把这个chunk切分为更小的chunk，避免单个chunk过大的情况。
Balancing：balancer是一个后台进程，负责chunk的迁移，从而平衡各个shard的负载。默认从chunk数量最多的节点移动到数量最少的节点。
系统初始1个chunk，chunksize默认值64M,生产库上选择适合业务的chunksize是最好的。mongoDB会自动拆分和迁移chunks。

chunk和event的区别：chunk为分片集群中的单元，为逻辑上的存储格式；event为数据实际的存储格式。chunk的分裂实际是不同数据在不同节点的移动过程。

chunk的分裂非常消耗IO资源，当插入和更新时，chunk才会分裂，读数据不会触发chunk分裂。所以chunksize的选择很重要：小的chunksize，数据均衡是迁移速度快，数据分布更均匀，数据分裂频繁，路由节点消耗更多资源，容易出现jumbo chunk（即shardKey 的某个取值出现频率很高，这些文档只能放到一个 chunk 里，无法再分裂）而无法迁移；大的chunksize，数据分裂少，数据块移动集中消耗IO资源，可能导致数据分布不均，可能出现 chunk 内文档数太多（chunk 内文档数不能超过 250000 ）而无法迁移。通常100-200M。

分片键shard key

mongodb分片是以集合为单位。在集合中，数据通过片键被分为多个部分。片键就是集合中选择一个键作为数据拆分的依据。
所以片键的选择对分片的好坏至关重要。片键必须是一个索引。一个自增的片键总是会在同一个分片上写入数据，但是按照片键进行查询非常高效；随机片键对数据均匀分布的效果更好，但是查询时会在多个分片进行查询，由mongos对结果进行归并。

片键不可变、片键必须有索引、片键大小限制为512bytes、片键用于路由查询、MongoDB不接受已进行collection级分片的collection上插入无片键的文档（空值也不行）

为了将数据按照片键进行分片，mongodb使用基于范围的分片或者基于哈希的分片。

基于范围的分片：Mongodb按照片键的范围把数据分为不同的部分。每个分片包含一定范围的数据。基于范围的分片对范围查询有很好的支持，但是拥有相近片键的文档很可能会存储在同一个分片中，写入效率会受到影响。
基于哈希的分片：哈希分片的片键只能使用一个字段。mongodb通过计算片键的哈希值，并用这个哈希值来创建数据块。在使用基于哈希分片的系统中，拥有相近片键的文档很可能不会存储在同一个数据块中，因此数据的分离性更好一些。但是对于范围查询，需要将查询分发到后端所有分片中才能找出满足条件的文档。

分片键的选择：

递增的shard key：优点是数据差距小，但是所有数据的写入会放到最后一片上，造成部分写热点。同时，随着最后一片数据量增大，会不断发生分裂并迁移到之前的分片上。
随机的shard key：优点是数据分布均匀，insert的写IO均匀分布在多个片上。缺点是大量随机IO。
混合型key：大方向递增，小范围随机分布。为了防止出现大量的chunk均衡迁移，可能造成的IO压力。我们需要设置合理分片使用策略（片键的选择、分片算法（range、hash））

最后编辑于：2018.05.03 16:55:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,911评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,014评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 142,129评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,283评论 1赞 264
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,159评论 4赞 357
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,161评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,565评论 3赞 382
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,251评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,531评论 1赞 292
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,619评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,383评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,255评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,624评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,916评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,199评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,553评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,756评论 2赞 335

mongodb——分布式

复制集

选举

数据同步

读操作

写操作

分片

chunk

分片键shard key

推荐阅读更多精彩内容