淘宝大数据之路

2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承担了数据采集、加工处理、数据应用的职责,淘宝大数据平台一路到今天,总共经历了三个大的阶段(如图1),不同阶段面临了不一样的挑战,随着我的理解回顾下这些年大数据所经历过的故事:

图1 数据仓库平台发展三个阶段

第一个阶段:RAC 时代

2008年前的单节点 ORACLE,这个时候还称不上数据仓库,只能承担简单的数据处理工作,也基本上没有数据仓库架构,随着业务的飞速发展,很快单节点的 ORACLE 因无扩展能力,计算存储能力就应付不了了;

2008年之后,为了应对日益增长的数据量,RAC 集群应运而生,从一开始的4个节点逐步发展到20个节点,成为当时号称全球最大的 RAC 集群,在 ORACLE 官网上也作为了经典案例,RAC 集群当时不管在稳定性、安全性、存储能力还是计算能力都表现非常优秀,随之而来第一代数据仓库架构也逐步形成;

这个阶段数据的 ETL 过程主要通过 ORACLE 的存储过程实现,大量的 SQL 脚本任务运行在集群上,任务运行的调度过程是通过 Crontab 来进行控制管理,随着任务数的不断增长,这时面临最大的问题是如何保证这成千上万的脚本每天是正常运行,出错后如何及时发现解决,这在当时天天困扰着开发,一直处于每天救火的状态,也就是这个时候,为了解决这个难题,数据团队开始自主研发调度系统,并将之命名为天网调度系统,形成了如下第一代调度系统的架构和原型:

图2 天网调度系统架构

图3 天网调度系统原型

第二个阶段:HADOOP 时代

调度系统的上线很好的解决了每天救火的状态,但是好景不常在;2008年,淘宝 B2C 新平台淘宝商城(天猫前身)上线;2009年,淘宝网成为中国最大的综合卖场;2010年1月1日淘宝网发布全新首页,此后聚划算上线,然后又推出一淘网;业务的飞速发展给数据带来的挑战,就是每天处理的数据量也在不断的翻倍,首先碰上瓶颈的是 RAC 集群针对网站的访问日志数据已经搞不定了,RAC 集群虽然有一定的扩展能力,但是无法无限制的线性扩展,并且扩容就意味着高昂的机器成本和软件成本,为了应对日益增长的数据量,2009年数据团队开始探索新的技术领域,同时探索应用了两个方向的技术:Greenplum 和 Hadoop,主要的场景就是用来解决海量的日志数据,Hadoop 因其良好的线性扩展能力,并且是开源的系统,能够基于官方版本二次开发适合淘宝的特性功能,逐渐占据了优势;

2010年初,最终确定放弃 Greenplum 和 RAC,全面使用 Hadoop,也就是这个时候我加入了淘宝数据团队,之后不久数据团队启动了去 O 项目,整个数据团队历经一个多月时间,风风火火将所有 RAC 上的存储过程,改写成 HIVE 和 MR 脚本,并将所有的数据都搬到了 Hadoop 上,Hadoop 集群命名为云梯1,形成了 Hadoop 时代的数据仓库架构,如下图4:

图4 云梯1数据仓库架构

进入2010年底,数据应用场景越来越多,2010年底发布了量子统计(淘宝官方版),2011年4月1日淘宝发布了数据魔方,将数据对外进行开放,广告和搜索团队也大量将数据应用到业务系统中,对内的淘数据产品也越来越成熟,数据的大量应用,带来的一个问题是如何保证数据的准确性和稳定性,需要从数据采集到数据加工及最终的数据应用全流程的保障;

这时第一个环节就碰到了问题,数据同步,业务系统有各种各样的数据源,ORACLE、MYSQL、日志系统、爬虫数据,当时有多种同步的方式,有通过 SHELL 脚本的、也有通过 Jdbcdump 的、还有别的方式,当时负责数据同步的同学,最痛苦的事情莫过于,业务系统进行数据库变更时,各种同步任务需要不断的调整,每次调整几百个任务极其容易出错,当时为了解决数据同步的问题,数据工具团队开始研发专门的同步工具 DATAX,也就是现在同步中心的前身,同时还研发了针对 DB 的实时同步工具 Dbsync 和针对日志的 TT,现在统一叫 TT,如图5:

图5 云梯1数据同步工具

天网调度系统也不断进行完善,开始支持小时调度、甚至分钟调度,并且集成了自动告警等一系统功能,升级为在云端,相关的 DQC 系统、数据地图、血缘分析等周边系统在这个时期不断推出,数据团队也不在断壮大。

在这期间,双十一网购狂欢节的影响力不断放大,已成为中国电子商务行业的年度盛事,并且逐渐影响到国际电子商务行业,不断刷新的成交记录刺激着所有人的神经。这时为了直观的提供第一线的数据给到决策层,产生了数据直播间的数据应用,需要活动当天及统计相关的数据,2013年前,采用的方式都是基于 Hadoop 一个小时计算一次的方式进行数据计算,数据存在一定的延迟性,从2013年开始,数据团队开始投入研发实时计算平台,也就是现在的 galaxy,并在当年的双11上线了第一个应用,双11数据直播间实时版本。

第三个阶段:MaxCompute(原 ODPS) 时代

就在 Hadoop 大量应用的同时,另外一个项目正在悄悄进行,那就是阿里云团队自主研发的 ODPS 系统,ODPS 所有的代码都由阿里自己完成,在统一、安全、可管理、能开放方面相比于 Hadoop 做了大量的完善,ODPS 系统命名为云梯二,从2010年开始,在很长一段时间内,一直处于云梯一和云梯二并存的状态;

这期间,集团为更好的打造数据生态,成立了 CDO,统一数据平台事业群,专门投入研发大数据平台的相关工具,包含计算存储平台、周边的调度系统、元数据血缘系统、数据质量管理系统、还有 DQC 等;

这个状态持续到2013年4月, 这时出现了一个新的挑战,Hadoop 集群的上限是5000个节点,按照当时数据增长数据的推算,集群存储即将撞墙,但是基于当时的状况,ODPS 无法完全替代 Hadoop,于是当时启动了一个规模非常庞大的项目,叫做“5K 项目”,同时进行云梯一和云梯二的跨机房集群项目,当时世界上没有任何一家公司具备跨机房的能力,存在非常大的技术挑战,最后项目历经近5个月的周期,攻克大量技术难点,项目取得了成功;

在“5K 项目”成功的同时,ODPS 架构逐步成熟,于是全集团又启动了一个规模更庞大的项目,叫做“登月项目”,将全集团的数据加工应用全部搬移到 ODPS,项目一直持续到2015年,Hadoop 正式下线,淘宝大数据彻底进入 ODPS 时代,整个数据的生态圈也越来越丰富,同时,阿里云开始对外提供云服务,其中大数据解决方案作为其中重要的组成部分,也开始对外提供;

时间回到2013年时,当时淘宝数据团队的每个成员都在忙于应对各类需求,每天都有做不完的各类报表,当时为了解救自己,数据团队开始摸索探索新的数据服务模式,思考如何解决数据冗余、口径统一、数据交换、用户自助等一系统问题,最终通过一段时间思考和摸索,开始研发孔明灯产品,针对不同的数据角色形成了一套完整的数据解决方案,如下:

图6 孔明灯解决方案

孔明灯产品的出现,对传统的开发模式做了个升级,对整个大数据建设也起到了非常好的管理作用,当时在淘宝内部,覆盖了大部分的业务 BU,对数据使用成本的降低,释放了大量的人力,同时也吸引了外部用户高德地图、阿里健康基于这套体系进行大数据建设;

2014年,集团公共层项目启动,集团内的各个数据团队,开始进行数据内容重构和整合,同时,CCO 正式成立,七公来到 CCO 带领技术团队,薛奎来到 CCO 带领数据仓库团队,CCO 也基于 ODPS 启动公共层建设项目,集成了包括淘系、1688、ICBU、AE 相关的服务数据,公共层建设的同时完成了登月项目,并且与 DIC 团队、RDC 团队协同建设了服务数据门户 DIGO 产品;

今天,数据在阿里巴巴已经深入到每个角落,阿里云有强大的算法团队、大批的数据接口人、分析师,每天的工作都与数据产生关联,随着人工智能的不断深入使用,业务系统的不断创新迭代,对数据的采集、加工、应用又提出了新的要求,如何更好的提供数据服务,面对未来我们需要思考更多,数据将进入一个新的时代——数据智能时代。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容