前言:
也许大数据,大并发,大流量在许多coder中还是一个比较遥远的事情。碰巧我最近经手的一个项目就有着大数据的问题(一天100w条数据左右)虽说不能算超级大,也算是需要做些特殊处理才能应付。
首先交代下背景:
首先大数据的表是一张订单表,订单表中有,交易金额,收益等字段,需要在后台做三种以上的统计
- 今日统计
- 昨日统计
- 累计统计
在这样大数据出现之前,使用的解决方案一直是将订单全部存在一张表里。然后统计的时候,就直接查询全表,做聚合查询。
这样处理在数据量不大的情况下确实是没问题,只是在新的订单量迅速增大,对数据表的读写和统计都有不小的挑战!
1. 水平分表
首先从数据表入手,经过我们思考,我们选择对数据表分表。分表的时机为按量分表,比如我们发现,订单表马上要到500w数据时,我们就新建下一张订单表(当然这是自动的)
这样做的好处就是,数据表的读取性能会比较好,而且不会在数据超级大的时候发生写入挂起的情况。始终让订单表处于一个高性能的状态。
当启用新表时,我们相应的创建订单方法和修改订单方法也要随着改变,要对新的数据表进行操作,这里就涉及到我上一篇文章《模型初始化踩坑记》 这里就不再赘述了。
2. 停机统计
搞定了对订单的新增和修改,就来到了本次项目的难点了,那就是对订单的统计。也是进过了很久的思考与讨论。发现我们的订单统计有一个特点:那就是很多地方都需要全表统计。如果我们先分表,然后再连表查询,这无疑就是脱了裤子。。。
那么经过我们的套路,我们设想出一套机制
这样做的目的是为了将一天的订单分为两个部分,一个是8:30之前,一个是8:30之后的。这样就可以很好的规避数据表切换导致的统计漏掉。这样每天只统计今日0 ~ 8:30和昨日8:30 ~ 23:59。通过计算,就可以得到昨日的统计,累计的统计(截止于今日8:30)
3.结合停机统计的实时统计
那么有人可能会问,那么8:30之后的订单如何统计呢?当然,我这里的机制最多能统计到当日8:30的数据,有很多的数据需要时效性,也就是实时的反应出订单的数据。那么这里我就要介绍第二套机制
根据当前时间的判断,走向两个case,拿到停机时段的统计数据,再结合,实时统计的数据。就可以得到完整的统计订单数据。虽然这个步骤看上去有些复杂。这就像是压缩文件,当你压缩一个1b的文件时,压缩出了70几b的压缩包。当我们的订单数据达到了1000w,甚至更多。那种看似简单的只统计聚合查询订单表便变得非常的慢。这一套逻辑虽然查询次数多一些。但是查询速度会有一个上限。这个上限就是我们切换数据表。随后读取的就是新的数据表,速度会非常快。
如果使用实时查询订单表,开始订单不多的时候,会很快。当订单越来越多时。查询速度会呈正函数形式向上递增。
本次介绍,主要是介绍一个思路。如果有更好的思路欢迎大家交流。由于涉及公司业务,代码就不便展示了。希望得到大神指点
谢谢
以上