数据治理的意义
在过去的几年中,随着中台战略被阿里提出。所有的公司都相应的紧跟步伐,建立了各种中台。而其中数据中台是最为津津乐道,也是被放在最核心的中台建设。在我看来数据中台并非对应着新的数据技术,而是一改之前以技术为主要推动力的数据管理方式,转而改为由业务赋能的为主要推动力的管理方式。是一个从重视数据收集与计算到重视数据应用的转变。
随着越来越多的数据被存储下来,管理数据的成本变得越来越高,如何高效的使用这些数据,如何为自己的数据资产定价都是现在应用数据时所面临的难题。以此为出发点,对现有的大数据工具做一份整体的研究与分析。希望对于刚刚接触这个行业的人,有所裨益。
产业地图
首先我们先来看看现在整体大数据技术的产品的版图。在之后的文章中,我们会对不同的产品进行测评与分析。由于笔者自身的理解有限,不足之处希望大家可以指正。大数据的技术发展至今,各个方面的开源工具已经趋于完善,并且随着新的技术的出现围绕新的技术而展开的升级换代也催生出了一系列的大型公司。在笔者看来,有三个原动力在推进这个方面的变革 :
- 云计算
云计算的出现使得构建一个大数据的服务变得简单,同时由于维护一个分布式系统的难度,使得将大数据的服务托管于云服务上的选择变得越来越为主流。也正因为如此,云计算厂商不断推出自己的云服务来满足企业对于大数据的需求。这其中最为著名的便是AWS的S3的服务。一定程度上在AWS的使用场景里,几乎都会选择用S3来替代HDFS的存储。 - 大规模异构场景的出现
自从Hadoop出现之后,新的计算与存储的项目便如雨后春笋般的崛起。比如用于搜索的Elasticsearch, OLAP场景的Greenplum, AWS的S3。而因为为了不同场景所建立的不同的项目,使得大部分现在大数据平台在存储与计算中都存在异构的问题。所以原来在RDBMS场景中需要的工具,又需要在新的异构场景下重新的实现一遍。最直接的例子就是基于SQL的一整套工具,比如Hive, Presto等。 - 人工智能的使用更加的频繁
AI的广泛使用也催生了大数据工具的完善,因为绝大部分的算法任务都对于数据有着较强的依赖,尤其是在准备训练数据的时候。同时算法也紧密的结合在了现在新的ETL的过程当中,这就对于原有的数据开发工具也提出了新的改造的需求。
在这三方面的共同推动下,如今围绕大数据的工具已经越加趋于稳定。随着底层应用的稳定,以及越来越多的数据被收集,数据治理的问题被提到越来越高的位置。而数据中台的建设,也可以被理解为是数据治理的贯彻。数据治理需要配合公司自身的战略进行,同时也需要有技术的工具作为支持。当前数据治理的工具要么来自于商业公司,比如informatica, Oracle,要么来自于云服务商AWS, 阿里云等。对于大部分的小型公司来说,要么需要找到对于大数据产品非常熟悉的专家自己拼装一个数据治理系统,要么就需要与云服务商强绑定。所以笔者认为未来在这个版图中会继续崛起新的开源数据治理的方案。
功能对比
对于现有的数据治理产品做一个梳理,我们可以得到上图所示的功能的对比。在之后的介绍中,我们会优先介绍数据治理包含的内容,之后再选取对应的技术与工具进行分析。因为很多数据治理的工具是商业产品,并不对外开放,因此我们会将更多的精力放在开源项目中。