关于分库分表策略的分析和总结

一.分库分表的原因

我个人觉得原因其实很简单：
1.随着单库中的数据量越来越大，相应的，查询所需要的时间也越来越多，而面对MySQL这样的数据库，在进行添加一列这样的操作时会有锁表的操作，期间所有的读写操作都要等待，这个时候，相当于数据的处理遇到了瓶颈
2.其实就是有意外发生的时候，单库发生意外的时候，需要修复的是所有的数据，而多库中的一个库发生意外的时候，只需要修复一个库（当然，也可以用物理分区的方式处理这种问题）

二.分库分表常用的策略

在我网上搜集的过程中，以及自己的实践，得到的分库策略可以简单分为以下几种方式：（如果有不正确的地方，请大家给我指出来，万分感谢）
首先，分为垂直切分和水平切分：
先说垂直切分吧，我的认为是根据业务的不同，将原先拥有很多字段的表拆分为两个或者多个表，这样的代价我个人觉得很大，原来对这应这个表的关系，开始细分，需要一定的重构，而且随着数据量的增多，极有可能还要增加水平切分；
水平切分，数据表结构，将数据分散在多个表中；

简单的示意图的了解一下。
对于垂直切分，好像能说的并不多，说的比较多一点的是水平切分。
水平切分时候，理想的情况是不进行数据迁移，无感知的进行，当然这就需要一点点小小的分库分表的策略。

1.有瑕疵的简单分库分表（按id的大小分库分表）

按照分片键（我们这里就用id表示了）的大小来进行分库分表，如果你的id是自增的，而且能保证在进行分库分表后也是自增的，那么能进行很好的改造，以id大小水平切分，而且极有可能不用迁移数据。

按id大小分库.PNG

当然，这里只列举了比较小的数据量，实际情况的分库的界限还是要依据具体的情况而定。这样的分库分表，因为新的数据总在一个库里，很可能导致热点过于集中（读写可能集中在一个库中），这是采取这种方式需要考虑的事情。
如果无法保证你的id是自增长的，那么你的数据就会凌乱的分散在各个数据库，这样热点确实就分散了，可是每当你增加一个数据库的时候，你就有可能进行大量的数据迁移，应对这种情况，就是尽量减少数据迁移的代价，所以这里运用一致性hash的方式进行分库分表比较好，可以尽可能的减少数据迁移，并且也能让解决热点过于集中的问题。一致性hash的分库策略去百度一下或者谷歌一下应该很容易搜到。如果你百度了还是不知道，欢迎你来跟我讨论。
这里按id的大小来分库，还可以发散到按照时间来分库，比如说一个月的数据放在一个库，这个使用mycat比较容易实现按时间分库，不过你需要思考的数据的离散性，数据集中于一个两月，而剩下的几个月数据稀疏，这样的又可能需要按照数据的生产规律合并几个月到一个库中，使得数据分布均匀。

2.比较方便的取模分库

一般的取模分库分表是就是将id mod n，然后放入数据库中，这样能够使数据分散，不会有热点的问题，那么，剩下的是，在扩容的时候，是否会有数据迁移的问题，一般的扩容，当然是会有数据迁移的。

取模.PNG

例子中，对3取模，当需要扩容的时候(假设增加两个库)，则对5取模，这样的结果必然是要进行数据迁移的，但是可以运用一些方法，让它不进行数据迁移，scale-out扩展方案能够避免在取模扩容的时候进行数据迁移。这个方案是我看到的，我个人觉得很好的方案了，这是原文。
我也想介绍一下这个方案（主要想检测一下自己理解了没）：

(1)第一种扩容的方式：根据表的数据增加库的数量

首先，我们有一个数据库——DB_0,四张表——tb_0,tb_1,tb_2,tb_3
那么我们现在数据到数据库是这样的:
DB="DB_0"
TB=“tb_"+id%4

当数据增加，需要进行扩容的时候，我增加一个数据库DB_1
DB="DB_"+((id%4)/2)
TB=“tb_"+id%4

当我们的数据继续飙升，这个时候又需要我们增加库，这个时候进行加库操作的时候，就不是增加一个库，而必须是两个，这样才能保证不进行数据迁移。
DB="DB_"+id%4
TB=“tb_"+id%4

这个时候到了这个方案的加库上限，不能继续加库了，否则就要进行数据迁移，所以这个方案的弊端还是挺大了，这样的方式，也应该会造成单表的数据量挺大的。

(2)第二种扩容的方式：成倍的增加表

首先，我们还是一个数据库——DB_0,两张表——tb_0,tb_1
那么我们现在数据到数据库是这样的:
DB="DB_0"
TB=“tb_"+id%2

假设当我们数据量打到一千万的时候，我们增加一个库，这时需要我们增加两张表tb_0_1,tb_1_1,并且原来的DB_0中库的表tb_1整表迁移到DB_1中，tb_0和tb_0_1放在DB_0中，tb_1和tb_1_1放到DB1中。
DB="DB_"+id%2
tb:
if(id<1千万) { return "tb_" + id % 2 }
else if(id>=1千万) { return "tb_"+ id % 2 + "_1" }

数据的增长不可能到此为止，当增加到两千万的时候，我们需要加库，这个时候，按照这种做法，我们需要增加两个库(DB_2,DB_3)和四张表(tb_0_2,tb_1_2,tb_2_2,tb_3_2)，将上次新增的表整表分别放进两个新的库中，然后每个库里再生成一张新表。
DB:
if(id < 1千万) { return "DB_" + id % 2 }
else if(1千万 <= id < 2千万) { return "DB_"+ id % 2 +2 }
else if(2千万 <= id ) { return "DB_"+ id % 4 }
tb:
if(id < 1千万) { return "tb_" + id % 2 }
else if(1千万 <= id < 2千万) { return "tb_"+ id % 2 +"1" }
else if(id >= 2千万) { return "tb"+ id % 4+"_2" }

值得注意的一点，在id超出范围的时候，该给怎么样的提示是值得思考的。

(3)第二种扩容的方式：一个一个的增加。(我在这里和原文有点出入，大家不看也罢)

上一种方式是成倍的增加，有的时候往往不需要这样，现在我们基于上一个例子的第二阶段(1千万到2千万的阶段)，添加一个库DB_2,新增两张表tb_0_2,tb_1_2;将tb_0和tb_1放在DB_0中，最为旧文件的查询，tb_0_1和和tb_1_1分别放入DB_1和DB_2中，再在这两个库中生成新的表
DB:
if(id < 1千万) { return "DB_0"}
else if(1千万 <= id < 2千万) { return "DB_"+ (id % 2 + 1)
else if(id >= 2千万) {return "DB_"+ id%3}
tb:
if(id < 1千万) { return "tb_" + id%2}
else if(1千万 <= id < 2千万) { return "tb_"+ (id % 2) +”1“
else if(id >= 2千万) {return "DB"+ id%2 +"_0"}

第三种扩展方式，按照原文的介绍，会在旧的数据库中加入新的数据库，而且当继续扩容的时候，也会又一定的困难，我这样的方式，对于新的扩容，比较困难，所以第三种方式总的来说是我认为是失败，我个人觉得最优的方式是第二种，我这里的id>n是指在数据量达到n这个数据量，而不是指id按大小进行比较，那样的话，和按照id大小进行扩容又什么区别，哈哈哈。
总得来说，对于数据库扩容，总得思考方向为两点：一个是是否进行数据迁移；一个是数据是否分布均匀，会不会造成热点集中的情况。数据迁移也不一定是坏的，这些都依据场景而定。

二.分库分表后的考虑

分库分表之后常常会遇到数据分页的问题，这个问题其实解决的办法很多，但是都没有一个完美的方法，总的来说，还是需要妥协，例如在不分库分表前：select * from t_msg order by time offset 200 limit 100 这样的语句，在分库分表的后，我看到的有这样几种处理
方法一：全局视野法（分别从各个库中提取到x+Y的数据量进行排序提取）
将order by time offset X limit Y，改写成order by time offset 0 limit X+Y。
服务层对得到的N*(X+Y)条数据进行内存排序，内存排序后再取偏移量X后的Y条记录。
方法二：业务折衷法-禁止跳页查询
用正常的方法取得第一页数据，并得到第一页记录的time_max。
每次翻页，将order by time offset X limit Y，改写成order by time where time>$time_max limit Y以保证每次只返回一页数据，性能为常量。
方法三：业务折衷法-允许模糊数据（数据分布足够随机的情况下，各分库所有非patition key属性，在各个分库上的数据分布，统计概率情况应该是一致的）
将order by time offset X limit Y，改写成order by time offset X/N limit Y/N。
方法四：二次查询法
将order by time offset X limit Y，改写成order by time offset X/N limit Y；
找到最小值time_min；
between二次查询，order by time between $$time_min and $time_i_max；
设置虚拟time_min，找到time_min在各个分库的offset，从而得到time_min在全局的offset；
得到了time_min在全局的offset，自然得到了全局的offset X limit Y。

最后我想说，不同的业务场景对应不同的策略，不能为了追求最新的东西，而忽略真正的业务场景，这样的得不偿失。任何一件事都具有两面性，就看你如何取舍，放之四海而皆准。不管什么事情都能解决的，所以，遇到问题不要慌。

最后编辑于：2018.04.28 15:05:37

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,898评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,401评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,058评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,539评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,382评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,319评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,706评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,370评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,664评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,715评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,476评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,326评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,730评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,003评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,275评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,683评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,877评论 2赞 335