美团数据仓库的演进

作为IT从业者，今天看到这边篇文章，自己的想法还是挺多的，转载过来保存一下，方便自己后期阅读吧。

美团数据仓库，在过去的两年中，与我们的业务一起高速发展。在这一演进过程中，有很多值得总结和沉淀的内容。这篇文档回顾下美团数据仓库这两年发展过程中遇到的各种问题，为什么选择了现在的技术方案，每一个功能和模块是在什么情况下产生的，解决的是什么问题，中间有过哪些弯路。既可以作为大家熟悉美团数据仓库构建过程的一篇文档，也可以作为初次建立数据仓库的参考。

史前时代

在正式建设美团数据仓库之前，数据组也为各部门提供数据支持，不过那个时候的数据需求还比较少，而且也相对简单。

通常的做法是：

工程师写一段PHP或者Shell脚本，从命令行输入参数。

自己连接数据库，通常是一个业务数据库的从库，将需要的原始数据提取出来。

在内存中计算数据。

然后将结果写入一个专门存放统计结果的DB。

再写一个PHP页面作为报表提供给需求方。

这是简单明了的流程，但是随着需求的增加和精细化，有一些问题变得很棘手，并严重影响的开发效率：

有很多重复劳动和代码，比如连接数据库的代码，每个人都要写，各种写法不同，分布在很多地方，如果哪个DB的连接方法变更了，需要更改很多地方。

中间数据缺失，中间计算结果不能共享。比如每个Deal每天的销量，不同的人写报表，每人都可能要重算一次。

很难管理和维护，程序语言五花八门，同一指标可以写多种统计方法，各种语言各种执行方式，缺少文档，其他人很难接手维护。

数据的清洗和转换没有统一方法，比如，哪天是每月第一天或每周第几天这种需求，靠手工调用各种时间函数来计算，非常容易出错。

不同数据源的数据很难综合使用，比如一个数据需要使用主站的数据和合同系统的数据，要把这些数据组织在一起就很麻烦

为了解决这些问题，在2011年Q2初，数据组开始搭建美团的数据仓库。

引入ETL

数据仓库的学术定义有很多版本和特点，其中有几个词能概括这一段工作的特点，规范和集成。

首先需要建立一个DB用于保存从各个数据源提取出来的数据。

第一，解决不同数据源的数据联合使用的问题。

第二，因为是独立的DB，可以进行复杂的计算而不用考虑会影响线上个系统的DB。

第三，可以保留大量需要重复使用的中间数据。

第四，数据在首次进入数据仓库时，就可以进行清洗整理，去掉无效数据和脏数据，添加常用字段比如 datekey。

这一时间的一个重要工作是，引入了一个工具——ETL。ETL是Extract（抽取），Transform（转换），Load（载入）的首字母组合。顾名思义，ETL工具的功能就是抽取数据，经过加工后，再载入到新的位置。

ETL的优点是：

封装了到各个数据库的连接，使得工程师只需要关注数据的抽取和转换逻辑，而不必处理各种数据库的连接细节。

将数据抽取和转换统一使用SQL来表示，形式化的统一使得理解处理过程变的简单，便于不同的人协作开发，同时，用SQL表示逻辑将各种复杂的统计交给关系数据库来处理，也降低了出错的可能性。数据抽取的过程中同时完成各种清洗和转换，替换空值，规范时间表示等。

这一时间也同时确定了很多规范:

用数据表示逻辑，典型例子是，不再使用各种时间函数来计算时间，而是建立一个日期表，把某一天的各种信息属性全部算出来存在一张表里，需要的时候只要连表就可以得到。大大降低了时间逻辑出错的可能性并简化了开发。

将数据分为维度数据，事实数据，衍生数据，聚合数据等类型，以及第一版的命名规范。为后续数据的组织和管理奠定了基础。

数据仓库的基础数据建设，一直是数据组的一个主要工作，直到2011年Q4，随着各种数据需求的增加，在如何使用数据上，有了一些新想法。

尝试OLAP

要做数据仓库，而不是数据坟墓，数据如果不被使用，就毫无用处。怎么能供各部门更好的使用这些数据呢？我们要做平台，可供人去探索数据的平台。

2011年下半年，随着美团业务的高速发展，用数据支撑运营变得越来越重要，各种数据需求出现了一个井喷期，开发人手比较少，一时间有些捉襟见肘。

有没有方法能让需求方自助的获取数据，而不依赖RD呢，想到了一个非常流行的概念是OLAP——联机分析处理（相对于OLTP——联机事务处理），目标是做成一个自助探索工具的平台。

从2011年Q4开始到2012Q1，数据组开始调研试用开源的OLAP工具套件。耗时较长，从调研和最后试用的情况看，现有的OLAP系统不适合我们。

有几个主要的问题：

开发和使用太复杂，成本太高。

产品成熟度较低，很多数据需求没法支持。

笨重，不太适应互联网公司快速灵活的节奏。

因为上述原因，到2012Q1，放弃了OLAP的尝试。

同时在这个时间点上，公司对数据需求的增长，暴露出了数据仓库的很多问题，可以说是需求走在了技术的前面，迫使我们集中力量做很多大规模的升级。

数据仓库是一套完整的环境

2012Q1时，数据仓库出现了很多新的棘手的问题。

首先，有哪些流程在线我们不清楚，什么时间执行的，有没有按时执行不清楚。报表出了问题要查流程历史记录都很难查。

其次，我们已经有了几百个ETL流程，流程之间有执行顺序的依赖关系，但是没有好的工具来管理，靠crontab里设定执行时间间隔。经常出现上游还没有算完，下游就启动了，会出现脏数据。另一方面，并行开发太多，一个人的修改，不知道会不会影响别人，经常出现冲突。

第三，每次都用PHP手写报表，重复工作太多，开发上线都非常复杂。

第四，数据表和指标很多，命名不规范，经常会遇到两个相近概念的比较问题，解释起来非常麻烦，需要遍历整个计算过程才能梳理清楚。

针对这些问题，分别开发了相应的工具。

第一个是流程的注册，管理，查看的工具，每个流程都有了户口本和行为记录。

第二，写工具分析流程之间的依赖关系，画出关系图。

第三，开发调度系统，根据关系图调度ETL流程执行。

第四，抽象报表工具，屏蔽复杂的报表页面开发，将报表抽象为SQL和配置。

第五，建立数据字典，解释每个指标和名词的意思和计算过程。

通过这几项主要工作，美团数据仓库发展到了一个比较成熟的阶段。也正是经历了这样一个过程，我们深刻体会到，数据仓库不仅仅是一个“数据存储的工具”，数据仓库应该是一套完整的软件环境，它应该包括：数据抽取，计算，存储，查询，展示，以及管理这些过程的工具。

协作开放

美团的数据需求发展非常快，这体现在数据规模的增长，数据分析人员的增长，数据分析复杂程度的增长。2012年下半年，快速发展的数据需求让原有的数据仓库架构达到了瓶颈。无论是DB的计算和存储能力，还是开发人员的精力，都达到了很高的负荷。而且由于开发流程和提取数据的重复劳动很多，团队士气也比较低落。这一时间的迫切工作是，如何能让需求方自助获取数据并分析，如何能让数据的计算和存储方便的扩展。

从2012年中开始，重点推进了几项工作以解决上述问题：

第一，建设主题表，将各种数据按照常用的维度展开成宽达几十列上百列的表，使得查数据非常的容易。比如，将一个城市一天的几百个指标放在一行，以城市id和日期作为主键，不用任何连表，使用简单的语法就能获取关于城市的各个角度的数据。类似的主题表还有用户，订单，Deal等角度。丰富的主题表不但简化了报表开发，也为非技术人员能够自助查询数据提供了方便。

第二，开发自助查询工具，培训使用，让各个部门的人都能在数据仓库上查自己需求的数据，培训大家使用SQL，自助完成需求。

第三，建立数据集市，按业务拆分，将部分数据导入到各个不同的DB，供业务部门更灵活的数据需求。

第四，将数据的存储和计算，向Hadoop/Hive 分布式平台迁移，已达到线性扩展计算和存储能力的需求。

第五，开放数据的存储和计算环境，让ETL流程的编写和部署Web化，让其它组有能力的RD，可以自己在数据仓库上部署计算流程，计算自己需要的数据。

这几个工作的周期都比较长，现在也在进行中，效果也十分明显，终于有和需求并肩走在一起，没有落后的压迫感了。但还没有走在需求前面。

还有很多挑战

美团的成长速度非常快，数据的规模和复杂度还将十倍百倍的增长；业务多样且变化迅速。如何能够在海量数据基础上进行数据的管理、加工、分析以支持快速成长的业务，后续还面临很多挑战。

我们期待对数据敏感、对管理海量复杂数据、对建设大型互联网电商数据仓库有兴趣的朋友们，加入美团数据仓库团队！欢迎投递简历到 diaoshihan(#)meituan.com

最后编辑于：2017.11.27 00:42:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

美团数据仓库的演进

推荐阅读更多精彩内容