MySQL的分库分表
概述
简单的来说分库分表就是通过某种特定的条件,将存放在同一数据库中的数据分散在多个数据库中,从而实现分散单台服务器负载的效果。
分库分表前存在的问题
1.单库太大
单个数据库处理的能力有限,单库上的IO操作的瓶颈 解决办法:切分成更多更小的库,单库在数据量足够大的时候所在的服务器磁盘空间的不足
2.单表太大
CRUD都成问题,索引膨胀,查询超时 解决办法:切分成多数据集更小的表
3.用户请求量太大
因为单服务器TPS,内存,IO都是有限的。 解决方法:分散请求到多个服务器上; 其实用户请求和执行一个sql查询是本质是一样的,都是请求一个资源,只是用户请求还会经过网关,路由,http服务器等。
两种切分模式
-
垂直分表:单一的表拆分成多个表,并且存放在多个不同的数据库服务器上。
垂直分表:大表拆成小表,基于列字段进行,通常指的是表中的字段比较多时根据使用程度,将不常用的、数据较大的、长度较长的拆分到扩展表中。一般是针对那些几百列的大表。
垂直分库:按照业务将表进行分类,将其分布到不同的数据库上,实现专库专用。例如:根据每个表的不同业务进行切分,比如User表、Pay表和Commodity表,将每个表切分到不同的数据库上。
水平分表:根据数据之间的逻辑关系进行拆分到不同的数据库服务器上,所有表加起来就是全量的数据。
简单来说,我们可以将对数据的水平切分理解为按照数据行进行切分,就是将表中的某些行切分到一个数据库表中,而将其他行切分到其他数据库表中。
水平分表:针对数据量巨大的单张表(比如订单表),按照某种规则(RANGE,HASH取模等),切分到多张表里面去。 但是这些表还是在同一个库中,所以库级别的数据库操作还是有IO瓶颈。不建议采用。
水平分库分表:将单张表的数据切分到多个服务器上去,每个服务器具有相应的库与表,只是表中数据集合不同。 水平分库分表能够有效的缓解单机和单库的性能瓶颈和压力,突破IO、连接数、硬件资源等的瓶颈。
水平分库分表切分规则:RANGE
从0到10000一个表,10001到20000一个表;HASH取模
一个商场系统,一般都是将用户,订单作为主表,然后将和它们相关的作为附表,这样不会造成跨库事务之类的问题。 取用户id,然后hash取模,分配到不同的数据库上。地理区域
比如按照华东,华南,华北这样来区分业务,七牛云应该就是如此。时间
按照时间切分,就是将6个月前,甚至一年前的数据切出去放到另外的一张表,因为随着时间流逝,这些表的数据 被查询的概率变小,所以没必要和“热数据”放在一起,这个也是“冷热数据分离”。
两种切分方式的优缺点
垂直分表
优点
- 便于实现动静分离,冷热分离的数据库表的设计模式。
- 按照成本、应用等级、应用类型等将表放到不同的机器上,便于管理。
- 拆分后业务清晰、拆分规则明确
- 系统之间进行整合或扩展很容易
- 数据维护简单
缺点
- 部分业务表无法关联(join),只能通过接口的方式解决,提高了系统的复杂性
- 受不同业务的限制,存在单库性能瓶颈,不易进行数据扩展和提升性能
- 事务处理复杂
水平分表
优点
- 单库单表保持在一定的量级,有助于性能的提高
- 切分的表的结构相同,只需要增加路由规则即可
- 提高了系统的稳定性和负载的能力
缺点
- 切分后数据是分散的,很难利用数据库的join操作跨库join性能较差
- 拆分规则难于抽象
- 分片事务的一致性难以解决
- 数据扩容的难度和维护量极大
总结
综上所述,垂直切分和水平切分的共同点如下:
- 存在分布式事务的问题。
- 存在跨节点Join的问题。
- 存在跨节点合并排序、分页的问题。
- 存在多数据源管理的问题。