今天介绍OneData体系的第二部分,这部分主要的内容是从成本中心向资源中心转变的一个过程。这个过程的主要内容是有元数据做底层构建的。核心思想是将存储和计算成本与数据的价值挂钩,形成数据资产的概念。简单的理解可以使价值/成本。本章的介绍方式还是先讲问题,再讲方法。本人公司也是在业务发展速度较快期,数据成本问题非常突出。那么开始本次介绍
1. 数据成本的深渊
首先介绍的是因为数据公共层建设不完善导致的ODS层数据重复抽取,在ODS层,DWD层,因为都是明细数据,所以占用的存储非常大。
其次,也是最终要的方法,将存储作为成本来看。很长的时间人们对于大数据的概念就是:空值成本、梳理血缘。一个重要的转变就是将成本投入与数据应用产生的价值挂钩的投入产出比,更值得去关注,从成本走向资产,从而直接对标价值,这是数据人在大数据赋能业务的过程中的终极目标
最后,将人肉治,转换为产品治,是在数据管理中孜孜不倦追求的目标。
综合以上的三点,看出资产治理的必要性和核心,而阿里走向数据资产治理的过程是从
1. 存储治理
2. 资源治理
3. 数据资产管理
2. 发展过程
2.1 存储治理
这里没有什么需要明确说的,是在数据仓库重构的时候,配合进行的。具体内容在图片中都有展示,这里不是重点
2.2 计算治理
阿里的计算治理主要从两个方面入手,一个是自己搭建平台对数据框架的优化,这方面比较专业,是基于hadoop的优化,没有做详细的介绍,想要了解详情的可以去看一下《阿里巴巴大数据实践》这本书第十三章。
另外一个优化就是提交代码的优化主要有三个方面
- map倾斜
- join倾斜
- reduce倾斜
具体的优化同样可以参考上面的那本书的第十三章,这里主要做整个框架的介绍,后面我也会单独写博客介绍数据倾斜的优化,及解决方案。
针对以上的两个方面进行优化后,阿里的2015年资产节约近亿元
2.3 资源治理平台
在经过上面两项的优化话,考虑到将人肉治转化为产品化,阿里进一步推出资源治理平台,资源治理平台由多个模块构成,我们首先来看一下他的整体架构
在我们开始看整体架构之前,我们先看一下各个业务方的需求,到底想看到数据的什么情况
- 对CEO或者业务负责人而言,他们更想知道的是自己到底有多少数据资产,分部情况如何,ROI(即全盘把握科学分析数据资产) ;如果当前业务缺乏一些数据,该从何处获取这些数据。
- 对一线开发人员而言,他们不在乎有多少张表,可能指向看到会员数据或者某行业数据,所以他们想要的是可以清晰查看及快速使用的数据资产。
- 对业务负责人及CTO、CFO,他们关系的是数据资产是否被合理的利用到合适的地方,哪些地方应该有数据却没有,哪些地方应用数据付出的代价太大,即准确评估及合理应用数据资产。
- 对一线技术人员,技术负责人而言,他们关心的是是否能用数据治理数据,及如何实现大数据智能诊断与高效治理数据资产
基于上面的需求,我们再看整个架构,我们将架构分成三层
-
用户访问端与操作端:
1.1 在产品目录导航上,直接提供资产全景的功能,资产全景一数据资产月报为例,会在这里说明当前整个集团的数据资产总量及其分布,各个数据域的占比,数据应用场景,以及投入产出比;
1.2 提供资产地图功能,实现清洗快速使用数据资产服务;
1.3 提供资产应用功能,为实现 准确评估及合理应用数据资产服务
1.4 提供资产治理功能,为实现 只能话诊断与高效治理数据资产服务 -
技术端与后台运营端:
在产品端或者用户访问端关注不到的地方,一方面在技术啊上做好资产分析,资产应用,资产优化等工作,为访问端提供素材;另一方面,在资产运营方面做好促进业务与技术,数据资产来源方等的协作互动工作 -
元数据中心:
元数据中心主要的作用是将以上的工作实现自动化,而不是靠人去维护。元数据中心需要收集的元数据包括
3.1 数据元数据,即关于数据的详情,计算,存储等情况的元数据;
3.2 规范元数据,即关于元数据建设过程中的各种指标,模型相关的元数据;
3.3 服务元数据,即关于数据在被以表或者API等方式提供服务时候的元数据