数据中台的前世今生

聊“数据中台”之前,我们先聊聊“中台”概念起源

《皇室战争》《部落冲突》这两款爆款游戏大家应该都不陌生,这两款游戏都是由芬兰一家为名为Supercell游戏公司开发设计,一度成为世界上最成功的游戏公司。2015年马云曾带领团队拜访过该公司,这家只有几百人的公司将员工分为了5到7人独立开发团队,各个团队独立设计与开发,公司不会对团队有过多限制,如果产品上线后用户反馈不好,就会快速放弃。supercell公司会通过“中台”为各个团队输出游戏素材、技术架构等。协助各个团队可以快速的开发设计产品,因此打造出了高效率的产品产出模式。在此之后,马云将“中台”融入阿里,阿里正式启动“中台”战略。阿里将业务线整合为业务中台,将数据治理与数据建设等数据管理活动为特征的中台称为数据中台。2018年末开始,各大公司都开始数据中台项目研发,不光对公司内部开始搭建业务中台与数据中台,还对外输出搭建中台的方案和技术做成了ToB企业服务。

数据仓库

说起数据中台不得不提起数据仓库。1991年比尔·恩门提出数据仓库概念,在其著作《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。面向主题、集成的、时间相关、不可修改成为了数仓的四要素。下图可以方便大家理解数仓四要素概念。

一般的大型企业中会有多个业务系统,例如系统A负责客户管理,会有一个专门的数据库存放客户数据。系统B负责管理库存,库存数据会存储在另一个数据库。数仓就是把所有不同系统的数据统一同步接入到数仓,然后按照主题域对数据进行组织。主题域的数据都是按照时间分区进行存放且单条数据是不可更新。恩门提出的建模方法是自顶向下的(顶指数据来源,各个数据库),基于各个实体搭建数据仓库。 说到了比尔·恩门的数仓建设的方法和思想就不得不提起另一位大师金博尔(Kimball)。金博尔提倡的数据建模的思想是先从分析场景出发,拆分维度和事实,以达到快速相应业务场景的不断变化,基于互联网业务可以选择金博尔的建模设计方法。

大数据技术快速发展

随着互联网时代的到来,海量数据不断的产生,以互联网广告行业为例:广告主在主流媒体(抖音,快手,爱奇艺等)曝光数据每天就会产生几千亿次。在存储用户数据场景中传统的数仓难于扩展,无法承载如此大规模的数据。另外在基于互联网产生的非结构化数据越来越多(例如:后端日志数据)这部分数据是无法直接同步到数仓中(数仓对数据结构要求严格)。所以规模和结构就限制的传统数仓无法适应现代互联网发展趋势。在此基础上,大数据hadoop技术发展而来。2003年谷歌发布了GFS和MapReduce思想细节,后续更是以《The Google File System》《MapReduce:Simplified Data Processing on Large Clusters》《Bigtable:A Distributed Storage System for Structed Data》三篇论文奠定大数据基础。目前hadoop生态圈发展非常迅速,丰富组件可以应该各种场景。

我们可以看下hadoop的优点:

  • 高可靠性。采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。
  • 高效性。作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效地处理PB级数据。
  • 高可扩展性。Hadoop 的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上。
  • 高容错性。采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
  • 成本低。Hadoop 采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的 PC搭建Hadoop运行环境。
  • 运行在Linux平台上。Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。
  • 支持多种编程语言。Hadoop上的应用程序也可以使用其他语言编写,如C++。

基于大数据技术发展,数据湖孕育而生。数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。大数据平台诞生让数据集成、研发、测试、上线、运维都可以大数据平台上完成,提高了数据研发生产效率。

数据中台诞生

现代互联网场景高速发展,业务侧对数据需求越来越多,更多数据需要用来支撑业务发展。例如新业务开展后,运营侧急需要相对应数据来分析业务开展效果并通过数据分析结果对新业务进行迭代。但是业务侧对数据需求增多,往往会出现各个业务线分别对应不同的数据研发团队,大家内部需求不共享同步,这种往往会出现数据割裂,形成数据孤岛。在我们数据中台前期调研时,就发现一个A指标,在不同团队中的定义是不一样的场景,另外也出现对同一数据多次开发的场景。为了解决以上业务困境,就需要一个“组织”将数据统筹起来,将数据服务化、共享化以赋能数据应用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容