关于分库分表策略的分析和总结

一.分库分表的原因

我个人觉得原因其实很简单:
1.随着单库中的数据量越来越大,相应的,查询所需要的时间也越来越多,而面对MySQL这样的数据库,在进行添加一列这样的操作时会有锁表的操作,期间所有的读写操作都要等待,这个时候,相当于数据的处理遇到了瓶颈
2.其实就是有意外发生的时候,单库发生意外的时候,需要修复的是所有的数据,而多库中的一个库发生意外的时候,只需要修复一个库(当然,也可以用物理分区的方式处理这种问题)

二.分库分表常用的策略

在我网上搜集的过程中,以及自己的实践,得到的分库策略可以简单分为以下几种方式:(如果有不正确的地方,请大家给我指出来,万分感谢)
首先,分为垂直切分和水平切分:
先说垂直切分吧,我的认为是根据业务的不同,将原先拥有很多字段的表拆分为两个或者多个表,这样的代价我个人觉得很大,原来对这应这个表的关系,开始细分,需要一定的重构,而且随着数据量的增多,极有可能还要增加水平切分;
水平切分,数据表结构,将数据分散在多个表中;



简单的示意图的了解一下。
对于垂直切分,好像能说的并不多,说的比较多一点的是水平切分。
水平切分时候,理想的情况是不进行数据迁移,无感知的进行,当然这就需要一点点小小的分库分表的策略。

1.有瑕疵的简单分库分表(按id的大小分库分表)

按照分片键(我们这里就用id表示了)的大小来进行分库分表,如果你的id是自增的,而且能保证在进行分库分表后也是自增的,那么能进行很好的改造,以id大小水平切分,而且极有可能不用迁移数据。

按id大小分库.PNG

当然,这里只列举了比较小的数据量,实际情况的分库的界限还是要依据具体的情况而定。这样的分库分表,因为新的数据总在一个库里,很可能导致热点过于集中(读写可能集中在一个库中),这是采取这种方式需要考虑的事情。
如果无法保证你的id是自增长的,那么你的数据就会凌乱的分散在各个数据库,这样热点确实就分散了,可是每当你增加一个数据库的时候,你就有可能进行大量的数据迁移,应对这种情况,就是尽量减少数据迁移的代价,所以这里运用一致性hash的方式进行分库分表比较好,可以尽可能的减少数据迁移,并且也能让解决热点过于集中的问题。一致性hash的分库策略去百度一下或者谷歌一下应该很容易搜到。如果你百度了还是不知道,欢迎你来跟我讨论。
这里按id的大小来分库,还可以发散到按照时间来分库,比如说一个月的数据放在一个库,这个使用mycat比较容易实现按时间分库,不过你需要思考的数据的离散性,数据集中于一个两月,而剩下的几个月数据稀疏,这样的又可能需要按照数据的生产规律合并几个月到一个库中,使得数据分布均匀。

2.比较方便的取模分库

一般的取模分库分表是就是将id mod n,然后放入数据库中,这样能够使数据分散,不会有热点的问题,那么,剩下的是,在扩容的时候,是否会有数据迁移的问题,一般的扩容,当然是会有数据迁移的。

取模.PNG

例子中,对3取模,当需要扩容的时候(假设增加两个库),则对5取模,这样的结果必然是要进行数据迁移的,但是可以运用一些方法,让它不进行数据迁移,scale-out扩展方案能够避免在取模扩容的时候进行数据迁移。这个方案是我看到的,我个人觉得很好的方案了,这是原文
我也想介绍一下这个方案(主要想检测一下自己理解了没):

(1)第一种扩容的方式:根据表的数据增加库的数量

首先,我们有一个数据库——DB_0,四张表——tb_0,tb_1,tb_2,tb_3
那么我们现在数据到数据库是这样的:
DB="DB_0"
TB=“tb_"+id%4



当数据增加,需要进行扩容的时候,我增加一个数据库DB_1
DB="DB_"+((id%4)/2)
TB=“tb_"+id%4



当我们的数据继续飙升,这个时候又需要我们增加库,这个时候进行加库操作的时候,就不是增加一个库,而必须是两个,这样才能保证不进行数据迁移。
DB="DB_"+id%4
TB=“tb_"+id%4

这个时候到了这个方案的加库上限,不能继续加库了,否则就要进行数据迁移,所以这个方案的弊端还是挺大了,这样的方式,也应该会造成单表的数据量挺大的。

(2)第二种扩容的方式:成倍的增加表

首先,我们还是一个数据库——DB_0,两张表——tb_0,tb_1
那么我们现在数据到数据库是这样的:
DB="DB_0"
TB=“tb_"+id%2



假设当我们数据量打到一千万的时候,我们增加一个库,这时需要我们增加两张表tb_0_1,tb_1_1,并且原来的DB_0中库的表tb_1整表迁移到DB_1中,tb_0和tb_0_1放在DB_0中,tb_1和tb_1_1放到DB1中。
DB="DB_"+id%2
tb:
if(id<1千万) { return "tb_" + id % 2 }
else if(id>=1千万) { return "tb_"+ id % 2 + "_1" }


数据的增长不可能到此为止,当增加到两千万的时候,我们需要加库,这个时候,按照这种做法,我们需要增加两个库(DB_2,DB_3)和四张表(tb_0_2,tb_1_2,tb_2_2,tb_3_2),将上次新增的表整表分别放进两个新的库中,然后每个库里再生成一张新表。
DB:
if(id < 1千万) { return "DB_" + id % 2 }
else if(1千万 <= id < 2千万) { return "DB_"+ id % 2 +2 }
else if(2千万 <= id ) { return "DB_"+ id % 4 }
tb:
if(id < 1千万) { return "tb_" + id % 2 }
else if(1千万 <= id < 2千万) { return "tb_"+ id % 2 +"1" }
else if(id >= 2千万) { return "tb
"+ id % 4+"_2" }

值得注意的一点,在id超出范围的时候,该给怎么样的提示是值得思考的。

(3)第二种扩容的方式:一个一个的增加。(我在这里和原文有点出入,大家不看也罢)

上一种方式是成倍的增加,有的时候往往不需要这样,现在我们基于上一个例子的第二阶段(1千万到2千万的阶段),添加一个库DB_2,新增两张表tb_0_2,tb_1_2;将tb_0和tb_1放在DB_0中,最为旧文件的查询,tb_0_1和和tb_1_1分别放入DB_1和DB_2中,再在这两个库中生成新的表
DB:
if(id < 1千万) { return "DB_0"}
else if(1千万 <= id < 2千万) { return "DB_"+ (id % 2 + 1)
else if(id >= 2千万) {return "DB_"+ id%3}
tb:
if(id < 1千万) { return "tb_" + id%2}
else if(1千万 <= id < 2千万) { return "tb_"+ (id % 2) +”1“
else if(id >= 2千万) {return "DB
"+ id%2 +"_0"}


第三种扩展方式,按照原文的介绍,会在旧的数据库中加入新的数据库,而且当继续扩容的时候,也会又一定的困难,我这样的方式,对于新的扩容,比较困难,所以第三种方式总的来说是我认为是失败,我个人觉得最优的方式是第二种,我这里的id>n是指在数据量达到n这个数据量,而不是指id按大小进行比较,那样的话,和按照id大小进行扩容又什么区别,哈哈哈。
总得来说,对于数据库扩容,总得思考方向为两点:一个是是否进行数据迁移;一个是数据是否分布均匀,会不会造成热点集中的情况。数据迁移也不一定是坏的,这些都依据场景而定。

二.分库分表后的考虑

分库分表之后常常会遇到数据分页的问题,这个问题其实解决的办法很多,但是都没有一个完美的方法,总的来说,还是需要妥协,例如在不分库分表前:select * from t_msg order by time offset 200 limit 100 这样的语句,在分库分表的后,我看到的有这样几种处理
方法一:全局视野法(分别从各个库中提取到x+Y的数据量进行排序提取)
将order by time offset X limit Y,改写成order by time offset 0 limit X+Y。
服务层对得到的N*(X+Y)条数据进行内存排序,内存排序后再取偏移量X后的Y条记录。
方法二:业务折衷法-禁止跳页查询
用正常的方法取得第一页数据,并得到第一页记录的time_max。
每次翻页,将order by time offset X limit Y,改写成order by time where time>$time_max limit Y以保证每次只返回一页数据,性能为常量。
方法三:业务折衷法-允许模糊数据(数据分布足够随机的情况下,各分库所有非patition key属性,在各个分库上的数据分布,统计概率情况应该是一致的)
将order by time offset X limit Y,改写成order by time offset X/N limit Y/N。
方法四:二次查询法
将order by time offset X limit Y,改写成order by time offset X/N limit Y;
找到最小值time_min;
between二次查询,order by time between $$time_min and $time_i_max;
设置虚拟time_min,找到time_min在各个分库的offset,从而得到time_min在全局的offset;
得到了time_min在全局的offset,自然得到了全局的offset X limit Y。

最后我想说,不同的业务场景对应不同的策略,不能为了追求最新的东西,而忽略真正的业务场景,这样的得不偿失。任何一件事都具有两面性,就看你如何取舍,放之四海而皆准。不管什么事情都能解决的,所以,遇到问题不要慌。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,898评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,401评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,058评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,539评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,382评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,319评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,706评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,370评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,664评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,715评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,476评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,326评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,730评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,003评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,275评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,683评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,877评论 2 335

推荐阅读更多精彩内容