还是来聊聊大数据。
上一篇我们聊业务,这一篇我们聊机会。
当然所有的机会都有一个共同的出发点,那就是:随着数据的规模化处理和应用需求越来越多,随着相应基础设施的成熟,原有的分散、独立、小规模自给自足的数据生产,在未来将越来越让步给平台级、以云计算为基础的大规模数据生产和消费链条。
打个比方来说,过去的人们都在使用马车,养马、招募马夫、买饲料等等所有过程,都是由每个家族独立承担,就每个家族来说,马车的使用本身是一件分散、独立的事情,使用人群基数不大,而且从社会范围来说是自给自足的事情;但是,今天的人们所使用的汽车,是基于成熟的石油工业和流水线生产而来,仰赖于广泛分布的加油站和道路体系,属于工业化大生产、大消费。
从这个意义上,大数据更应该加上一个前缀:「工业化」——和云计算基础下的数据生产和消费链条相比,过去的传统数据行业,更像是农业社会的自给自足,必定会被大规模、高效率、低成本的「工业化」数据所取代。
正如阿里巴巴CEO张勇所言:「在大数据和云计算正成为新经济时代的「石油」和引擎的大背景下。。。」我们就从「数据=石油」这个维度,来聊聊数据的「石油工业」如何实现,以及会给接下来的商业世界带来哪些改变。
因为在网上很难找到我想要的图,要不就不太清晰,所以我就参照日本的一张资料图片,用53 Paper手绘了一张。(PS:画风比较幼稚,不要介意。)
下面慢慢解释。一家之言,不求正确,但求有所启发。
当数据成为石油
自从计算机诞生以来,人们一直在做一件事情:结构化所有虚拟和现实的空间,以便于计算机理解。你在什么地方上网,你买了什么东西,你去过哪里,对什么网站感兴趣……所有这些数据在过去漫长的年代里都一直在积累,在沉淀。
数据是什么时候开始被称为生产资料(或生产要素),这件事情已经不可考。只是,数据科学的诞生一直仰赖于两个基本条件:一是数据量巨大;二是数据本身成为了构建数据产品的关键要素。
如何理解关键要素?还是打个比方,马车要跑起来,关键在于拥有一匹健康的马,但是汽车要跑起来,除了拥有一辆汽车以外,更重要或者说更关键的是通过加油站加上汽油。
另外,必须要指出的是,和以前的数据产品最大的差别在于,这里的数据大多数不再只是静止的历史数据,而更多是动态的实时数据。
实时数据的数据传输量大,时延性要求高,在廉价的云计算和宽带尚没有成规模的时候,并不能真正用于实际业务的实时查询和分析。而随着云计算「云-管-端」体系的成熟,实时数据也就随之走上了前台,成为未来业务体系非常重要的一环。
具体的影响因为比较偏技术就不再冗述,但是就像石油是由生物沉积而来,并在特定的环境下形成油田,今天,随着云计算的大规模应用,原本分散的、非结构化的原始数据,也慢慢被结构化存储在DW(Data Warehouse,数据仓库)中,成为了待开发的油田。
油田以及其上的钻井平台,就构成了未来整个DT时代信息经济的基础,在技术上被称为IaaS(Infrastructure as a Service,基础架构即服务),而钻井平台的硬件(Hardware)就是各大数据中心,比如阿里巴巴刚刚在千岛湖建设的数据中心。
和传统的油田不同的是,石油是存量资产,用一吨就少一吨,但是作为信息经济「石油」的数据则是增量资产,钻井平台不仅仅要从油田里面采集可用的数据(图中蓝色的data字样),而且,要把源源不断的原始数据(图中红色的data字样)上云变成可采集的「石油」,储存在DW之中,以备使用。
这个过程,和石油的产生类似——那些分散、碎片化的动植物尸体,通过一定的高温高压,在一定的地质环境下被储存下来,变成石油。不同之处在于,产生石油的时间以万年为单位,而产生数据的时间则以秒(甚至更少)为单位。
传统上,在企业内部,要打通采购、零售、供应商和物流仓储的数据,需要建立私有数据中心或者私有云,形成自给自足的数据供应体系。但是,如果想要把这些数据变成「油田」,那么,第一步就是要把这些私有数据「上云」——通过「钻井平台」储存在自有的「油田」里面。
云计算基础上的这套「钻井平台+油田」的体系,在商业上意味着什么?
一句话来说,意味着如果我们未来使用数据产品,将需要为数据付费,数据可以用于交换或者交易。
和过去互联网地下市场卖黑产(被拖库的数据)不同,经过IaaS这个钻井平台处理过的数据,成为了真正可交易的「石油」,并且最终会形成数据的交易市场(DM,Data Market),这可能会给整个商业软件服务领域带来两项关键性的改变。
第一,过去所有的公司,购买的都是软件产品和服务,所支付的费用,不管是License,还是年费等等,针对的都是软件服务本身,数据并不是主要的定价锚点。但是未来,企业将不是为了商业软件服务付费,而是为通用计算和数据付费。(想象马车和汽车的区别吧。)
第二,和数据分散、非结构化相对应的,是系统本身的分散和多元,一家零售公司,采购、零售、供应商管理、物流仓储加上CRM、Merchandising等等,可能都是由不同的商业软件系统提供商提供,这就会给统一的数据消费带来很多麻烦。在系统能力层面,就会形成对于提供系统化、体系化管理中台的需求。
如果要用石油生态里的东西打比方,那么,第一条就可以比喻成「加油站」,而第二条就可以比喻成「连锁加油站」。
为什么这么说,请继续看下去。
石油可以开采了,然后呢?
现在你已经有了一片巨大的油田,并且建立了钻井在日夜不停地填充、储存和开采,那么,接下来,就轮到我们的炼油厂了。
大体上,石油在被开采之后,要经历两次加工过程,第一次是电化学脱盐脱水的预处理,「清洗」掉其中不利于加工的无机盐和水分,而后通过原油蒸馏,把原油处理成汽油、柴油、焦油和各种润滑油成分等等;第二次则通过催化裂化、催化重整、加氢裂化等炼制过程,提高油品的质量。
经过炼油厂的处理,原油最终会变成各种原料,比如石油化学物质(塑料)、汽油、燃油、柴油、焦油、沥青、石蜡等等,这个过程通常被称为「提炼」。
和原油类似,原始数据因为来源不同,也包含有各种不同的「无机盐和水分」,需要清洗和提炼。已知的数据来源(或许可以称为「动植物尸体」?)就包括(via 《数据科学实战》):
- 传统数据:数字、分类变量和二进制变量
- 文字:电子邮件、Twitter、媒体文章
- 记录:用户数据、带有时间戳的事件记录和JSON格式的日志文件
- 地理位置信息数据
- 网络
- 传感器数据
- 图片
在数据处理的过程中,这个阶段的「炼油厂」通常被称为PaaS(Platform as a Service,平台即服务),对外提供的是「通用计算能力」,或者,可以理解成一个通用的原油处理平台,所有的数据原油都可以借助PaaS这个数据炼油厂变成保证质量的可用数据。炼油厂的顾客完全不用去关心钻井平台、油井、提炼这些过程,只需要在PaaS基础上去部署或者搭建属于自己的生产工厂(SaaS)。
从基础上来说,阿里云就是一个「炼油厂+钻井平台+油田」的完整方案提供商。
有了原料,可以开始生产了
炼油厂生产出来的汽油,并不是直接就可以用于给汽车加油,化工原料也不会变成成品的塑料制品或者化纤布,这都需要生产厂根据各自的需求选择适合自己的原料进行二次加工。
比如,通过生产流程的精炼,并且添加抗爆剂、氧化剂等等,最终,汽油就变成了各种95#、92#成品油。
在数据工作流程中,这个环节通常被称为SaaS(Software as a Service,软件即服务)。商业公司不用再去支付炼油厂和钻井平台阶段的费用,就可以获取在可用数据基础上自行定制(比如阿里的御膳房)或者购买标准化生产流水线(比如阿里妈妈的达摩盘)的软件服务,用于企业的经营管理。
严格来说,从数据维度出发的SaaS服务,并不是完整的信息化系统,而是更多体现为建立数据生产流水线,也就是通过算法和建模构建数据产品,例如大名鼎鼎的机器学习算法和朴素贝叶斯模型,都是在建立数据生产流水线中必不可少的工具。
通过建立流水线,挖掘数据对于实际业务的价值,并且提供给决策者用于实时或非实时决策,这就是数据生产厂在这个环节的意义。
通常意义上,以上几个环节的实际工作流程如下图所示:
从数据的维度,IaaS、PaaS、SaaS是层层递进的金字塔关系,IaaS是整个金字塔的底层,PaaS建构于IaaS之上,而SaaS则建构于PaaS之上。但是因为这里是在讨论数据从生产到消费的全流程,所以我们把每个环节都独立出来讨论。
另外,这部分在之前的文章「<6>裁缝的故事:达摩盘×御膳房」之中部分提到过,有兴趣的童鞋可以去找来再看看,当然,今天的御膳房和当时文章中所讲的御膳房已经不是一个概念了。
Iaas(油井+平台)解决的是数据的采集和存储问题,PaaS解决的是数据生产问题,而SaaS则解决了数据的加工问题,向之后的报告、决策等业务环节提供生产资料。
最终我们有了可以消费的汽油
通过上述几个环节,数据从最初待采集的原油,就变成了可以实际用于生产生活的汽油、柴油等等。
和石油公司类似,今天全球范围内能够形成上述数据「原油」生产体系无一例外都是各个领域里的巨头公司,Google、Amazon、Microsoft、Alibaba……
之所以会从数据变成「大」数据,数据的特殊性正在于此:只有那些数据生产和消费都已经成规模的公司,才有能力建立数据的「石油工业」,也才有能力帮助其他公司生产和消费数据。
那么,接下来我们就要解决消费(使用)问题了:
- 1)谁来消费;
- 2)实现什么目的;
- 3)使用什么工具;
- 4)如何定价
正如上文所言,所有的数据生产和消费,都是先从巨型数据公司内部开始,然后再慢慢把这些数据「石油工业」向外部拓展。
所以,1)第一个问题的答案,我们大概可以粗略地写成:平台和客户。
平台消费平台的数据比较好理解,那么平台是如何帮助其客户生产和消费数据呢?
这里又可以分成三种情况:
第一种,客户消费平台的数据。正如上文所言,只要客户购买了平台的数据服务,就可以不用自己建立「油田」也可以享受到平台的数据红利。
第二种,客户消费客户的数据。要从农业化的「自给自足」变成工业化的数据生产和消费,正如前文所言,所需要实现的第一步是数据上云,平台帮助客户建立自己的「油田」,并通过「铁皮盒子」机制实现「A用B的数据」(具体机制详见前文「<18>什么是大数据业务」)。
第三种,平台消费客户的数据。这可能是未来最令人兴奋的部分,平台不管是代表自己,还是代表其他客户,要消费就只能去购买该客户的数据,而这个过程又只能通过DM(数据市场)来实现市场的浮动定价。加入这个数据市场的客户越多,平台越多,这个市场的价值就越大,甚至会诞生数据的「纽交所」。
2)第二个问题,或许可以用这句话来代替答案:我要到哪里去。或者,更通俗的说,根据数据结果调整商业决策。
可以参考Growth Hacking和传统营销的差别,其中最大的差别在于是否通过数据监测和影响决策上。这些决策大到一个公司的商业模式,小到一个文案的发布;大到一个公司的高层的战略,小到一个普通职员接下来打算拜访哪个客户。所有这些决策,都可以通过「行动-数据收集和处理-调整」大法来改善。
和传统的数据分析相比,数据的「石油工业」把原本只提供给公司高层的定制「马车」,改变成为甚至每个员工都可以享用的「汽车」——「大数据的大,不仅仅是数据量大,也是数据使用人群的规模大。」(来自前LinkedIn商业分析部门高级总监张溪梦,在阿里巴巴数据开放日上的发言。)
3)第三个问题,简单来说,自动化工具。
数据从本质上来说,是机器和机器通信的工具,如果要转化成人能够理解并使用的数据结果,那么,就一定需要通过某种成型的数据产品。打个比方来说,就是要使用汽油,那么你就需要一辆「汽车」。
汽车内部通过「发动机-管道-轮轴-车轮」的自动化体系,把汽油的化学能转化成汽车本身的动能,这个过程,人的肉眼是看不见的。对于数据工具或者说数据产品来说,最重要的不是在人面前解剖并制造出一辆汽车,而是去完成人最终的出行目标:「我要到哪里去」,汽车本身保持黑箱状态就可以了。如果汽车出问题了,那么就交给专业的维修人员来处理。
这里又分两种情况:
第一种,对于数据产品有高度定制化的需求。就像赛车手需要量身定制的赛车一样,对于大部分品牌商而言,他需要的是一辆可定制的手动档汽车。这辆汽车是在统一的大平台上生产,但是其发动机、管道、轮轴和车轮都是根据其需求定制化完成。这个过程,可以由平台来完成,也可以由第三方机构协助完成,甚至就像法拉利一样自行组建一支专业的团队。
第二种,满足大部分机构的通用需求。手动档汽车更有驾驶感,但是,真正推动汽车驾驶普及的还是自动档汽车。对于大部分机构而言,对于数据的需求都是通用的,比如零售就可以总结为关于人的数据和关于货的数据两大类。这些需求,通过自动档汽车就可以完成。
4)第四个问题,为数据付费,而不是为软件付费。
再次引述一下前文:
第一,过去所有的公司,购买的都是软件产品和服务,所支付的费用,不管是License,还是年费等等,针对的都是软件服务本身,数据并不是主要的定价锚点。但是未来,企业将不是为了商业软件服务付费,而是为通用计算和数据付费。(想象马车和汽车的区别吧。)
比如阿里云总裁胡晓明最近提出,类似贸易的逆差和顺差,数据也存在逆差和顺差,要按照数据的访问量和被访问量收费。
从技术概念上,马车我们称呼其为SaaS的话,那么自动化的汽车,则可以称呼为DaaS(Data as a Service,数据即服务)。
要消费汽油,我们需要加油站
从数据「石油工业」到汽车这个DaaS服务,中间有一个关键的转换环节——加油站。
「石油工业」是大规模数据生产的结果,专属于某些大平台,而DaaS服务这辆汽车,则并不如此。如果愿意,每个机构都可以通过投入人力和成本去仿制和生产属于自己的汽车,并不一定要从平台那里购买。甚至,汽车本身也分成很多的品牌,不同的平台背后,都有不同体系的汽车品牌。
但是,所有的汽车(DaaS)都是一定要加油(数据)的,从这个意义上来说,数据「加油站」才是DaaS服务的核心。
和现实中类似,存在三种不同类型的加油站。
第一种,平台自建的加油站。优势是油品质量好,啊不对,核心数据足够高频和稳定;缺点是提供的一般都是自动档汽车,定制化需求比较难以满足。
第二种,客户自建的加油站。优势是足够定制化,缺点是应用规模分散、应用场景局限,严格来说,这也不算缺点。比如零售公司的merchandising部门,通过有效的库存规划销售分析,帮助零售、采购、供应商、物流和仓储部门去有效的发现和解决问题,就类似于加油站的角色。不过,如果真正要谈论「石油工业」背景下的加油站,事实上,除了平台自身,今天尚没有一个客户有这个能力去建立自己的加油站。
第三种,第三方建立的加油站。在真正的DM变成现实之前,这种情况不需要讨论。正如前文所言,加油站的前提是数据的「石油工业」,没有平台的支持,所有号称自己是加油站的第三方,统统都是伪命题。
连锁加油站的必要性?
前文有提及中台这个连锁加油站:
和数据分散、非结构化相对应的,是系统本身的分散和多元,一家零售公司,采购、零售、供应商管理、物流仓储加上CRM、Merchandising等等,可能都是由不同的商业软件系统提供商提供,这就会给统一的数据消费带来很多麻烦。**在系统能力层面,就会形成对于提供系统化、体系化管理中台的需求。
首先要理解一件事情,和江湖类似,技术开发也是分不同门派的。不同门派武艺都各有各的特点,很少有人能够专精所有门派的武艺。(要了解这一点,可以搜索「全栈工程师」)
就像开车的朋友都会碰上的情况,不同加油站的油品存在质量高低。同一辆汽车,有的加油站加满油可以跑300公里,而有的则只能跑280公里,最好的则可以跑320公里;还有的加油站偷偷往油里加燃油宝;不同的油品来源也会导致油品本身的质量差别。
另外,和江湖门派类似,一个机构内部可能存在非常多的汽车品牌,宝马、奥迪、奔驰……每个汽车品牌的配件和维修体系都是独立而复杂的,各自不通用而且研发成本高。
这里通常碰上的两个问题是:
- 重复建设:每个项目都要独立招聘团队进行开发,重复建设基础设施,项目本身也多有重复之处
- 缺乏整体规划:来一个需求就开发一个系统,结果最后系统繁多,维护成本极高,而且各自不通用
即使是在平台,这个问题也非常严重。阿里巴巴之所以进行「大中台、小前台」的组织变革,根本原因也在于此。
中台这个连锁加油站和独立加油站的区别在于:通过标准化统一的封装,客户可以更方便地获取建立连锁加油站以及汽车(DaaS)的全套资料,并在平台处获取搭建服务的能力,快速地根据自己的需求搭建服务。
另外,就像中石化加油站一样,中台的能力也不是所有公司都有,只有那些具备数据「石油工业」的平台,才有搭建中台或者帮助客户搭建中台的能力。
从技术的维度,感兴趣的话可以搜索中台的技术基础BaaS(Backend as a Service,后端即服务)。
不过,从商业的角度出发,我有一套自己的想法:
|商业场景| 以用户为中心
|中台| 以策略为中心
|基础设施| 以保障为中心
丢在这里算个尾巴,有时间再来详细解释吧,感兴趣的童鞋可以一起来讨论呀。
PS:以上内容谨代表本人观点,和所在公司无关。
人了解世界的时候,都是先问who & where,慢慢学会问why,当对答案不满足的时候就开始问how,所以,knowhow才是人对世界的回答。谢谢关注Knowhow_Ho,何夕一言堂,这是我对世界的回答,一家之言,不求正确,但求有所启发。