分库分表梳理

当涉及到分库来支撑高并发的请求，大量分表保证每个表的数据量别太大，读写分离实现主库和从库按需扩容结合自己公司的业务和项目来考虑自己的系统如何做分库分表应该怎么做具体的分库分表落地的时候，需要借助数据库中间件来实现分库分表和读写分离对于日单量50万的订单表从单表结构设计上没有好的方法能解决问题的本质需要如何看待要描述嗯问题而不局限于那一点上如何解决问题对于订单单表数据量越来越大若每天单表新增50万条数据，一个月就多1500万条数据，一年下来单表会达到上亿条数据。在高峰期请求现在是每秒1万系统可以做微服务集群部署解决平均每台机器每秒支撑一千以内的请求数据库层面如何解决呢到数据库层面每秒上万的并发请求应该如何来支撑？单从单表字段结构设计想是死胡同应该从数据库并发负载量考虑问题怎么实现数据分流才是正路对于普通服务器一般让其每秒请求支撑控制在2000 左右负载相对合理解决方案如下首先第一步，就是在上万并发请求的场景下，部署个5台服务器，每台服务器上都部署一个数据库实例。然后每个数据库实例里，都创建一个一样的库，比如说订单库。此时在5台服务器上都有一个订单库，名字可以类似为：db_order_01，db_order_02，等等然后每个订单库里，都有一个相同的表那么此时5个订单库里都有一个订单信息表。比如db_order_01库里就有一个tb_order_01表，db_order_02库里就有一个tb_order_02表。这就实现了一个基本的分库分表的思路，原来的一台数据库服务器支撑变成了5台数据库服务器，原来的一个库变成了5个库，原来的一张表变成了5个表。然后你在写入数据的时候，需要借助数据库中间件，比如sharding-jdbc，或者是mycat，都可以。可以根据比如订单id来hash后按5个库取模，比如每天订单表新增50万数据，此时其中10万条数据会落入db_order_01库的tb_order_01表，另外10万条数据会落入db_order_02库的tb_order_02表，以此类推。这样就可以把数据均匀分散在5台服务器上了，查询的时候，也可以通过订单id来hash取模，去对应的服务器上的数据库里，从对应的表里查询那条数据出来。 [图片 703.jpg] 原来比如订单表就一张表，这个时候不就成了5张表了么，那么每个表的数据就变成1/5了。假设订单表一年有1亿条数据，此时5张表里每张表一年就2000万数据了每天新增50万数据的话，那么每个表才新增10万数据，这样初步缓解了单表数据量过大带来的性能问题最后回来原先来问题每秒1万请求到5台数据库上，每台数据库就承载每秒2000请求若一年一亿的量，每个库还是有两千万还是数据量太大还应该继续分表，大量分表。比如可以把订单表动态创建拆分为1024张表，这样1亿数据量的话，分散到每个表里也就才10万量级的数据量，然后这上千张表分散在5台数据库里就可以了。在写入数据的时候，需要做两次路由，先对订单id hash后对数据库的数量取模，可以路由到一台数据库上，然后再对那台数据库上的表数量取模，就可以路由到数据库上的一个表里了通过这个步骤，就可以让每个表里的数据量非常小，每年1亿数据增长，但是到每个表里才10万条数据增长，这个系统运行10年，每个表里可能才百万级的数据量这样可以一次性为系统未来的运行做好充足的准备 [图片 704.jpg] 大量分表的策略保证可能未来10年，每个表的数据量都不会太大，这可以保证单表内的SQL执行效率和性能。然后多台数据库的拆分方式，可以保证每台数据库服务器承载一部分的读写请求，降低每台服务器的负载。不得不考虑一个问题假如说每台数据库服务器承载每秒2000的请求，然后其中400请求是写入，1600请求是查询。增删改的SQL才占到了20%的比例，80%的请求是查询。这时候数据库一般都支持读写分离，也就是做主从架构。写入的时候写入主数据库服务器，查询的时候读取从数据库服务器，就可以让一个表的读写请求分开落地到不同的数据库上去执行。这样的话，假如写入主库的请求是每秒400，查询从库的请求是每秒1600 [图片 705.jpg] 写入主库的时候，会自动同步数据到从库上去，保证主库和从库数据一致。然后查询的时候都是走从库去查询的，这就通过数据库的主从架构实现了读写分离的效果了现在的好处就是，假如说现在主库写请求增加到800，这个无所谓，不需要扩容。然后从库的读请求增加到了3200，需要扩容了。这时，你直接给主库再挂载一个新的从库就可以了，两个从库，每个从库支撑1600的读请求，不需要因为读请求增长来扩容主库。实际上线上生产你会发现，读请求的增长速度远远高于写请求，所以读写分离之后，大部分时候就是扩容从库支撑更高的读请求就可以了对同一个表，如果你既写入数据（涉及加锁），还从该表查询数据，可能会牵扯到锁冲突等问题所以一旦读写分离之后，对主库的表就仅仅是写入，没任何查询会影响他，对从库的表就仅仅是查询