数据中台总体架构图


数据中台是在底层存储计算平台与上层的数据应用之间的一整套体系,屏蔽掉底层存储平台的计算技术复杂性,降低对技术人才的需求,可以让数据的使用成本更低。如果用三句话来概括数据中台的组成架构,那么一定是:

通过数据中台的数据汇聚、数据开发模块建立企业数据资产

通过资产管理与治理、数据服务把数据资产变为数据服务能力,服务于企业业务

数据安全体系、数据运营体系保障数据中台可以长期健康、持续运转

现在您已经知道了,数据中台离不开这几个模块:数据汇聚、数据开发、资产管理、数据安全、数据服务。那么赶紧跟上我的脚步潜入内部去一探究竟吧。

数据汇聚

数据汇聚,首先必然要有数据来源,有了数据来源之后,需要确定采集工具,有了采集工具之后你还要确定存储位置。

数据来源

数据是数据中台的核心,所以数据汇聚无疑是数据中台的入口。企业中的数据来源极其多,但大都都离不开这几个方面:数据库,日志,前端埋点,爬虫系统等。

数据库我们不用多说,例如通常用mysql作为业务库,存储业务一些关键指标,比如用户信息、订单信息。也会用到一些Nosql数据库,一般用于存储一些不那么重要的数据。

日志也是重要数据来源,因为日志记录了程序各种执行情况,其中也包括用户的业务处理轨迹,根据日志我们可以分析出程序的异常情况,也可以统计关键业务指标比如PV,UV。

前端埋点同样是非常重要的来源,用户很多前端请求并不会产生后端请求,比如点击,但这些对分析用户行为具有重要的价值,例如分析用户流失率,是在哪个界面,哪个环节用户流失了,这都要靠埋点数据。

爬虫系统大家应该也不陌生了,虽然现在很多企业都声明禁止爬虫,但往往禁止爬取的数据才是有价值的数据,有些管理和决策就是需要竞争对手的数据作为对比,而这些数据就可以通过爬虫获取。

这些数据分散在不同的网络环境和存储平台中,另外不同的项目组可能还要重复去收集同样的数据,因此数据难以利用,难以复用、难以产生价值。数据汇聚就是使得各种异构网络、异构数据源的数据,方便统一采集到数据中台进行集中存储,为后续的加工建模做准备。

数据汇聚可以是实时接入,比如实时消费mysql的binlog进行数据同步,也可以是离线同步,比如使用sqoop离线同步mysql数据到hive。

技术选型

数据汇聚一般用到的技术包括:

Flume

Sqoop

Datax

Canal

数据落地

采集之后必然需要将数据落地,即存储层,常见的有:

– MYSQL、Oracle、Tidb

– Hive、Hdfs、HBase

– Redis

– ElasticSearch

由于篇幅问题,本文不详细说明。关于采集工具以及存储层的选择和使用、后续会有专门的文章介绍。

数据开发

数据开发可以理解为数据汇聚和数据资产的一个桥梁。何为数据资产?数据资产是有价值的数据。而数据汇聚是原始数据,业务人员一般是难以使用的。原始数据–>有价值的数据,是需要一个过程的。那么就是让数据开发模块来完成这个过程。

数据开发是一整套数据加工及管控的工具,包括离线开发,智能调度,实时开发,人工智能等。

举个例子,某公司想知道广告投放的效益,而原始数据包括埋点数据,用户注册数据,用户消费数据等,是不是需要整理一个sql,跑一个广告效益报表呢?毫无疑问需要。那么我们就可以通过智能调度平台,定时跑出业务需要的数据;也可以通过实时流计算,实时展示业务需要的数据。这都是属于数据开发模块的功能。

离线计算:计算推荐使用Spark\Hive。调度平台可以使用Azkaban、Oozie、EasySchedule。

实时计算:推荐使用Flink、SparkStructStreaming、SparkStreaming、Storm

人工智能:推荐使用TensorFlow、Spark ML

由于篇幅问题,本文不详细说明。后续文章有详细说明离线计算、实时计算的选型、应用场景和落地方案。

数据开发模块适合对象是数据开发、算法建模人员,提供离线、实时、算法开发工具以及任务的管理、代码发布、运维、监控、告警等一些列集成工具,方便使用,提升效率。他们可以依赖于数据开发模块提供的基础功能,快速把数据加工成对业务有价值的形式,提供给业务使用。

数据资产管理

有了数据汇聚、数据开发模块,中台已经具备传统数仓平台的基本能力,可以做数据的汇聚以及各种数据开发,就可以建立企业的数据资产体系。

这里我有必要再次强调一遍:数据资产指的是有价值的数据。这个也正是资产管理模块需要去做的事情。如何让数据变的有价值?第一体现在数据本身上,比如需要保证数据的质量。第二体现在业务上,偏技术的数据体系业务人员是比较难理解的,因此资产管理需要用企业全员更好理解的方式,把企业的数据资产展现给企业全员(当然要考虑权限和安全管控)。

数据资产管理包括数据地图、元数据管理、数据质量、数据血缘、数据生命周期等进行管理和展示,以一种更直观的方式展现企业的数据资产,提升企业的数据意识。

现在你会有很多疑问,数据地图是什么?元数据管理是什么?数据血缘又是什么?这些都是非常核心的地方,别急,后续文章我会以公司真实落地方案和应用场景对每一个模块进行说明,先发几张图让你对它们有一个初步的概念。

数据质量和安全

数据质量和安全在很多架构图中归属于资产管理模块,但是笔者认为数据质量和安全应该是贯穿整个数据中台的。数据汇聚和数据开发的时候显然也应该考虑质量和安全问题,所以笔者倾向于将数据质量单独拿出来作为一个模块。

数据质量

我们会遇到无处不在的数据质量问题,包括业务系统脏数据、数据不一致不准确等。影响数据使用和上层决策。

为什么会出现数据质量问题呢?大部分是如下几个原因

开发代码的BUG

数据源变更:比如由于MYSQL表结构变更,导致HIVE同步MYSQL任务失败。

基础设施和服务不稳定或资源不足:比如流量猛增的情况导致OOM

由于这些原因,会导致数据不符合以下”四性”,因此存在数据质量问题:

完整性:指的是数据信息是否存在缺失的状况,可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。

一致性:是指数据是否遵守了统一的规范,数据集合是否保持了统一的格式。比如商品购买率=商品购买用户数 / 商品访问量,如果在不同的模型中,商品购买用户数是1W、商品访问量10W,商品购买率20%,那这三个指标就存在不一致。

准确性:是指数据记录的信息是否存在异常或错误。比如数据格式是否为正确的ip。

及时性:是指数据从产生到可以查询的时间间隔,也叫数据的延时时长。

而数据质量无疑是非常重要的一部分,就算你数据再多再快,不准也无用。因此数据质量管理平台尤为重要。数据质量管理是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。数据质量监控可以全程监控数据加工流水线,根据质量规则及时发现问题,并通过报警通知负责人及时处理。

在实际生产中,可从以下几个方面做好数据质量工作:

离线数据:数据是否完整、一致和准确,比如HIVE离线同步业务库MYSQL数据,同步完需要对比数据条数。

实时数据:除了数据是否完整、一致和准确,还需要检测数据是否断流、数据是否延迟。

报警监控:支持短信、微信告警到对应负责人。

数据安全

数据安全的重要性不用多说,如果你把用户信息泄露了,严重会导致整个公司都倒闭。因此对于全链路的数据,都应该做好数据安全工作。比如应该把业务库/日志的敏感数据进行脱敏,为身份证、银行卡等常用的数据类型提供掩盖脱敏策略。以及日志审计等。

数据生命周期安全可以分为以下几个部分:

数据采集安全:包括数据源鉴别以及记录等

数据传输安全:包括数据传输加密等

数据存储安全:包括存储介质安全、数据备份恢复等

数据处理安全:包括数据脱敏等

数据交换安全:包括数据共享安全、导入导出安全等

数据销毁安全:包括数据销毁和介质销毁等

数据服务体系

前面利用数据汇聚、数据开发建设企业数据资产,利用数据管理展现企业的数据资产,但是并没有发挥数据的价值。数据的价值体现一定是在业务层面、即数据服务体系。就是把数据变为一种服务能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在

数据服务体系是基于公司自身的产品和业务的,比如以电商公司为例,数据服务就包括了:精准营销、用户画像、经营分析、可视化大屏等。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容