22岁的某一天,我坐在学校图书馆外的空地上,准备打个电话,看看有没去研究中心实习的机会。室外的气温不冷也不热,灰蒙蒙的云朵覆盖了天际,膝盖上躺着一本书,书的主题是数据挖掘。
对的,数据挖掘,当时还没有“大数据”这么高大上的名词,干这行的大体就是数据挖掘。流行的案例是沃尔玛把销售数据做了统计后发现,超市的啤酒和炸鸡——哦,不,是啤酒和尿布——放在一起,销量异常地好。至于为什么,超市专家也不知道。通过事后诸葛亮的分析,结论大概是年轻的爸爸们被老婆交代出门买尿布时都会异常地烦躁,然后顺便拿起啤酒犒劳自己。这就是非线性的统计学的魅力,未来肯定大有可为。
这门技术也是我报考的研究中心的专业方向之一,还可以跟人工智能、模糊数学之类听起来很有趣的领域结合在一起。所以特地借了这方面的书来看看,没想到被作者浇了一头冷水。这本书的大意是,这门技术好处多多,数据可以横着挖竖着挖,上天入地无所不能,只是有个前提,你得先建立起数据仓库,而建立数据仓库的前提是你得有海量的数据,冷冰冰的现实是国内企业基本没有海量数据,除了银行和电信运营商。换句话说,工作不太好找。
当时我没想到,多年以后,自己偏偏就进入了电信运营商。那个作者也不知道,在他写书的同时,淘宝正准备快速崛起,互联网将带来“羊毛出在狗身上,让猪来买单”的千亿产值数据市场。而他看好的银行和电信运营商,在数据应用方面,也许还真比不上互联网企业的境况。半年前,我曾兴致勃勃地参加技术部门的会议,研讨大数据分析项目。没探讨几分钟,话题就从“要怎么分析数据”转到“有没办法拿到准确的数据”上了,而且结论是——没办法。
没错,运营商是积累了大量用户数据,规模大、维度多,算是个数据的富矿。但是有个致命的干扰因素,那就是KPI指标考核。为了这神秘的考核指标,各级单位会做出许多奇葩的事情,比如给猪肉注水、在荒山上刷绿油漆、各省GDP总合超过全国GDP……做这种数据的分析,纯粹是个脏活累活。个中心酸,只有统计局的朋友才能理解。
对于同一个数据,要套用哪种口径,学问也很大。有时你想统计的要素A偏偏不单独体现在数据中,而是和要素B、要素C混杂在某个口径的维度里。或者要素A成分很复杂,有不少以次充好、以假乱真的东西装作要素A,就和历史书里的写的一样,19世纪的英国商船,运着中国茶叶,为了多赚钱还往里面塞了不少柳树叶、锯末、花瓣和羊粪,你叫大家还怎么愉快地玩耍?
而且,数据分析也不完全等同于大数据。只是这个名词被提出以后,短短一两年间,就经历了从脱俗到通俗,从通俗到庸俗的过程,直到所有和数据有关的东西,都被挂上大数据的羊头。真正的大数据,按照《大数据时代》的定义,大概就是人类科技文明进步了,电脑越来越快了,以前这么多数据需要搞抽样统计的,现在统统不需要,全部硬算!这种简单粗暴的风格倒是挺符合电信运营商的老子天下第一的思维,所以后来我附庸风雅买了本《大数据营销》,那作者也在津津乐道英国电信的案例,通过分析海量通信数据,很厉害地拓展了N多潜在客户,而且还给出了运算的思路。结合长期和注水猪肉打交道的经验,我只能呵呵冷笑几声了。
不过,这不是运营商一家的问题。有个大数据的博客,博主在阿里巴巴的从事数据分析工作,而且也在美国亚马逊的实习过。在这两家成熟的公司,数据清洗依然占据着70%的工作量,这还仅仅是多源的数据转化、填补遗漏数据、消除异常数据、平滑噪声数据这些简单工作,碰到人为因素或天生缺失部分维度的数据,恐怕要大吐一口老血了。
而且,很多数据的分析是相当依赖行业经验的。今年上级单位发了一个号码清单给我们,说这些客户都是忠诚客户,长期稳定不离网,请大家分析原因,分享经验,继续做好存量保有工作。我看了一会清单,笑了。不用什么算法分析,肉眼都能看出来,这些号码都是隶属于几个本地GPS公司的,不是普通人用的手机卡,而是用于车载GPS设备通信的,当然离网率低忠诚度高了,只要卡不坏掉基本不会换的。这种情况,如果由毫无市场运作经验的数学家来分析,肯定要大费周章,牛头不对马嘴。
所以,大数据不是一把神奇的万能钥匙。奇怪的是,你在各种场合下又经常能见到它,这就是所谓流行吧。上周参加了咨询公司办的讲座,关于传统企业如何转型做O2O。本来主题是移动互联网,说着说着又落到数据分析去了,毕竟客户还需要深度运营、定制化服务,这些都属于大数据的范畴。同理,那些时髦的名词,互联网思维、粉丝营销、物联网、智慧城市,背后也有大数据的一席之地。也许,现代商业的前沿领域,都是互相跨界的,创新的业务模式才会在这种氛围中逐渐涌现出来。然后,也有些听起来比较靠谱的点子慢慢成为现实。
美国有家创业公司叫Curebit,帮助线下的连锁商超做口碑营销,具体方法是请消费者在结账的同时,给自己的朋友发“红包”。红包其实是优惠券,由商家免费提供,朋友收到后购物时可以享受折扣优惠。一方面,有个口碑营销的效果,精准投放,节省大量的广告投入;另一方面,消费者的购物信息与Curebit共享后,该推荐什么、打多少折扣,这些就是数据分析的强项了,也是这类型公司的核心竞争力。同理,国内在BAT之外,也有做线上购物推荐的第三方公司。专注一个行业积累数据和经验,不断修正模型,建立自己的保护性技术壁垒,这种前景,想想也还蛮令人激动的。
只是,22岁的我没能预知到这些。
电话拨通后,传来一个慈祥的声音,问我考了多少分后,说应该可以来实习了,那么我想选择哪个研究方向呢?我看了看那本数据挖掘的书,想了想毕业后找工作的前景,毫不犹豫抛弃了即将烂大街的大数据,选择了另一个孤高特立的方向,叫Web服务。
结果,后来它也有了个烂大街的新名字——云计算。