在今年5月份《经济学人》的封面文章中提到,数据已经取代石油成为当今世界最有价值的资源。无论准确与否,的确可以发现数据的重要性正随着科技的发展而不断凸显。
移动端热潮的兴起,数据收集的成本不断下降,这些都是催生大数据的因素。不过就个人看来,如今谈论大数据的书籍类著作更多地还是集中描述大数据所带来的或美好或危险的前景。比如机器学习的算法带来的预测,人工智能和神经网络等场景描绘。打个比方,如今谈论大数据的人,更像是在描述桌上的大餐,有着哪些色香味俱全的美食,但是很少人会讨论原料的问题,比如餐具,比如菜的原料如何处理,如何做菜的技巧。当然也有一部分技术类书籍关注数据分析与应用的问题,但这部分数据常常脱离了具体的商业环境和业务问题,只集中介绍数据分析的具体方法和技术。
《决战大数据》这本书的价值在于,作者是从实践中根据自身的经历来谈论,并没有简单地跳过关于在数据应用最初阶段所遇到的难题,同时也分享了自己在企业中从事数据分析的经验和心得。因此对于大数据应用方面有着更切身的体会。这些无论是数据分析的新手还是资深者都会有不少的启发。
作者在书中没有迷信大数据,反而对大数据保持着一种警惕。不时强调数据可能带来的误导。这也是当前在谈论大数据时少见的一种态度。不少人认为大数据,只需要相关性,不需要因果,这个观点值得商榷。大数据的确不是免费的午餐,如果说大数据是浪潮,但并不是每个人都能在这股浪潮中畅游。在书中一开始,作者就连续提到在大数据应用中的基础性问题,比如数据的存储,使用。这些问题看似基础,但是如果没能很好地解决,那么大数据的应用也无从谈起。更重要的是,作者同时也谈到,大数据的噪音问题。
除了数据应用的基础问题,人也是决定性因素之一。不管是企业经营者还是数据分析人员,对于数据的收集方式来源,数据的应用,模型的建构,数据的价值。企业管理者只是模糊地意识到数据的潜力,却没有清晰明确的方向,如何让数据真正为企业做出贡献?如何让数据分析真正落地?
作者在书中前半部分集中谈到了大数据所面临的一些问题,一方面是从数据方面来谈,另一方面则是从数据以及所在的企业来谈。在后半部分,作者以阿里巴巴在数据应用的实践,分别阐述了阿里数据化运营的内外三板斧。
在《数据挖掘与数据化运营实战》一书里面提到,数据化运营实施的前提包括企业级海量数据存储的实现、精细化运营的需求、数据分析和数据挖掘技术的有效应用等,并且还要得到企业决策层和管理层的支持及推动。
伴随着大数据热潮的到来,关于大数据和书画运营的一些新问题层出不穷。比如大数据会夹杂着虚假信息;大数据的数据量很大,但有用的信息不一定多,甚至还会破坏核心信息;大数据的来源是多种渠道的,偏倚、随机的误差总是存在的。当下,“不敢、不知,不会”成为大数据应用的难题。从数据到应用,作者认为人这一因素成为了数据应用的断层。如今人们对于大数据不敢用,不会用,不知如何用,谈论得太多而卷起袖子做大数据的人太少,使得大数据虚火旺盛,大家跃跃欲试,但是一旦真的开始,却无从下手,一些人开始怀疑数据的价值也不足为奇了。
数据从来不是单独存在的,或者说,单一的数据并不能发挥其真正的作用。在书中的第二章,作者就不断强调场景的重要性。把数据的产生还原到最初的场景,由于目前移动互联网的兴起,移动端的出现给数据收集乃至数据分析应用都带来了极大的挑战。作者认为大数据的本质就是还原用户的真实需求。这个更多的是从商业角度来说的。因此作者在提到,思考数据价值的三个维度:
- 能否清楚地识别用户的身份
- 能否搞清楚收集的数据对你的价值
- 收集数据时的场景是什么?
要真正做到活用数据,前提是敏锐的商业意识。书中提到仪表盘数据,前端数据和后端行为数据。一方面,对于各种商业模式的熟悉和了解,另一方面,需要结合不断的阶段。数据指标纷纭复杂,所以除了构建一个整体的框架结构,另外也需要在不同阶段都存在各自的重点指标。活的数据才是大数据。——在数据的自循环中,有两个核心的关键点:一个是“活”做数据收集,另一个是活看数据指标。
作者在书中提到将数据划分为前端行为数据和后端商业数据,并谈到了数据的5大价值:
- 识别与串联价值
- 描述价值
- 时间价值
- 预测价值
- 产生数据的价值
在我看来,数据的这5大价值是数据应用的基础,在数据应用的环节无论采用什么样的框架来决策,都是从这5大价值来展开的。另外,在利用框架进行决策时,作者提到了以下四点:
- 首先确定有什么问题,从解决问题的角度出发去收集数据
- 把收集到的数据整理好,放入一个“数据框架”内(这个框架是用来帮助决策者做决定的)
- 看框架与做决策的关系
- 根据决策行动,然后检查行动是否达到目的
数据框架,我认为这其实就是数据分析的方法论。个人比较倾向于以下这个常见的分析路径:做假设、定标准、做比较、看趋势、观全局、辨真伪、下结论。
1、所谓做假设,就是搞清楚分析的目的是什么。任何一个数据分析一定是有目的的,或者验证某个判断,或者找出有效区分的阈值,或者给出一个效果总结等,不管怎样,都应该有明确的目的。
2、所谓定标准,就是指在分析中要统一数据口径,明确对比的有效性和可比性。数据口径不统一,就没有分析的基础。定标准,就是要求数据分析师在分析之前要想清楚,如何才能保证比较的合理性。
3、作比较。世界上的万事万物都是相互依存的,任何判断和结论也都是相对的、可比较的。通常在数据分析商业实践中的比较包括:跟目标(KPI)的比较、跟时间的比较(同比、环比等)、跟不同部门(竞争对手)的比较、跟活动前后的比较、产品使用与否的比较等,不一而足。
4、看趋势。看趋势是一个有效的通用总结点,也是一个重要的思考方向。通过以往数据的分布和趋势图,可以发现事物的发展走向,而这个走向将会是一个很重要的分析结论。
5、观全局。数据从来就不是孤立的,如果我们只是关注冰山一角,得到的结论往往是错误的。所以,观全局就是要求数据分析师将眼光放远点,眼界扩大点。
6、辨真伪。统计数据往往会“说谎”,对于从数据中得到的结果不能无条件地接受,而是需要慎重地分析和判断。
在第6和第7章中,稍微展开了如何从用数据到养数据,但其实论述得并不够清晰,有不少还是停留在用数据。第7章则是提到数据的盲点。这种盲点一方面是数据自身所存在的,另一方面则是人自身造成的。数据都是关联起来才能看出意义,问题在于,我们所需要的指标,最初在建构指标的时候真的合理吗?这个指标能够代表我们想要了解的东西吗,指标的变化意味着什么?另外,数据是死的,人的活的。人往往需要根据各种外在因素来对数据进行判断,在这过程中,经验有时候却会带来一种所谓的专家陷阱,形成逻辑上的认知盲点。
在第8章一开始,作者就点出了数据化运营实践过程中的问题:堵、独、慢、漏。这四点的具体表现如下:
- 日常报表信息量大,难以捕捉有效信息
- 信息分散在不同部门,缺少有效整合
- 业务异动的处理往往是自上而下来推动
- 关键分析成果取得实效,但未实现沉淀
点出了数据化运营所存在的问题后,作者用案例的形式对比了数据化运营和运营数据,即用数据到养数据之间的差异对比。当然这两者并非割裂开来,而是形成一个闭环。可以说,是一个从简单到复杂,从初级到高级的进化过程。
阿里巴巴数据化运营的内功强调从人出发。书中提到,只有具备商业敏感的数据分析师,才会懂得使用什么数据来驱动公司实现经营目标。数据部的人要和业务部的人经常“混”在一起。
在“混”这一阶段修炼完成后,就需要强调“通”。“通”有两个场景,一方面要注重商业模式和数据彼此的通,我们可以称之为“数据中间层”,简单来说,它就是能够敏感的反映出商业变化的数据群。另一种更深入的通,就是存在于公司组织中的数据。要实现数据的打通,建立合理的系统是不二之选。在我看来,“通”不止数据的打通通,还有企业人员之间的沟通。数据化运营是跨专业、跨团队的协调与合作,在内部的沟通之中,分析师需要深入业务背景,发现、倾听业务需求,有效判别分析需求价值并提供分析解决方案,跟踪落地应用效果,最终修正或优化方案及模型。
“晒”这一内功,并不仅仅是实现数据的展示,而是能够实现数据在获取、使用、分享、协同、连接、组合之上都变得简单便捷,能够产生实际的应用价值。晒数据无非就要做到两点:发现当前业务的问题并提出改进之法;发现潜藏的机会并创造新价值。如何更好的“晒”数据,或者说充分发挥晒这一阶段的作用/功能,作者在书中讨论了一些具体的方法:
混、通、晒是一个连续的过程,每一个阶段都对后一个阶段产生影响。在“混、通、晒”三步之后就是“存、管、用”的外三板斧。“存”作为数据收集的开始,不能陷入为收集而收集的错误境地,而是要提前清楚收集的目的以及数据的用途,当然这件事往往是说起来容易做起来难,或许能够提前知道一些基本的用户和价值,但是却不可能完全梳理清楚那些潜在的应用。
在完成数据的收集之后,数据的存储就成为需要关注的问题,尤其是对于所谓的大数据。大数据的管理目前看来并没有形成比较一致的意见,数据管理和存储的工具多样,而影响数据管理的因素也多种多样。正如作者所言,数据管理,是大数据行业的脏活、苦活和累活。是最悲催和最难解决的事情。
“用”,个人觉得需要结合业务环节及场景,业务主体,比如商品/服务,顾客/潜在消费者依据具体的行为场景。借助前面提到的数据框架作为数据应用或数据分析的思路,在描述性的数据分析过程中,采用化整为零的策略;在统计推断的分析环节,则根据实际需求来进行建模。
无可否认大数据会成为未来商业的利器。但是在成为利器之前,大数据仍需要打磨。脏数据无可避免,这也是为什么数据清理在整个数据分析环节占据这么多时间的原因之一。另外,数据的标准化、数据的标签化管理、数据的实时化处理这些实际的问题也会成为大数据落地不得不认真应对的问题。
最后把书中提到的数据十戒摘抄在这里:
- 好的问题,答案就在里面
- 在实践中提炼数据
- 让数据变成科技,惠及更多人
- 让数据跟着“人”走
- 木有数据质量,神马数据都是浮云
- 以“假定数据是可获取的”去思考问题
- 大数据安全,不是监管
- 利用数据拿到更有用的数据
- 建立数据的数据,才有进步
- 让人做擅长做的事,让机器做机器擅长做的事