“这是最好的时代,这是最坏的时代,这是智慧的时代,这是愚蠢的时代,这是大数据的云时代。”大数据一词自2012年出现在《纽约时报》,《华尔街日报》和白宫官网后就迅速地如同病毒般扩散,在中国这个词更是“泛滥”。商业、经济、军事、金融、通讯、生物各个行业都在注视着大数据的一举一动,互联网等各种媒体上关于大数据的信息更是铺天盖地、天花乱坠,在百度中输入关键词“大数据”,搜索结果高达一亿条,对我们这些不明就里的吃瓜群众只觉得不明觉厉,可以形容说是“乱花渐欲迷人眼”。 麦肯锡称“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。”这句话可以产生许多的疑问,大数据是个什么东西?大数据为什么就能成为生产因素?大数据真的有那么牛逼吗? 大数据是什么东西呢,哪里来的呢?顾名思义就是海量的数据, 在《互联网上的一天》一文中提到,一天中互联网产生的全部信息可以刻满1.68亿张DVD,发出的邮件有2.940*10^12之多......截止到2012年数据量已经跃升到ZB级别。IBM提出过大数据的5V特点即volume、velocity、variety、veracity,value,无疑,前面的四个特点都是为最后value而生,为value而灭,没有价值的数据就没有其存在的意义。 我们要问了那么多,那么数据从哪里来的呢? 随着移动互联网、云计算、物联网等新一代信息技术的普及应用,智能手机、平板电脑、pc以及遍布各个角落的传感器,正在越来越多的接入网络,成为数据来源和承载方式。各种交互数据、传感数据正源源不断地从各个行业迅速生成这些庞大的、迅速产生和更新的大数据。 生产因素指的是进行社会生产经营所需要的社会资源。那大数据为什么能成为生产因素呢,为什么称它是新时代的石油呢? 云计算为大数据创造了条件,百度云有一则广告“云上的日子,你我共享”,的确,我们在还没有彻底搞清楚互联网是什么时候,云计算的时代悄悄来临,我们成了见证云时代到来的先锋,成为了大数据的提供者和享受者,数据只有处理加工了才有价值,才能成为资源,而当云计算撞上大数据就碰撞出了无限的火花。大数据的挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律则能够使云计算更好与行业应用相结合并发挥更大的作用;云计算将计算资源作为服务支撑大数据的挖掘,而大数据的发展趋势是对实时交互的海量数据查询、分析提供了各自需要的价值信息,在这个时代大数据和云计算相得益彰,相辅相成。云计算使数据成为新能源创造了可能性。 大数据的主要是描述过去,预测未来的作用,而预测是大数据如此神奇的一个关键,试想当我们能够不再依赖所谓的星座,所谓的上帝,我们能够切切实实地通过对数据的分析处理去预测未来,并且这个结果还挺准确时,我们就不难理解大数据为什么能够成为新的生产因素,毕竟在这个日新月异的时代,谁掌握了超前信息,谁就掌握了世界,那么大数据又是如何与预测的呢?在舍恩伯格在《大数据时代》一书中写到:“我们没必要非得知道现象背后的原因,而是要让数据自己发声。”“相关关系能够让我们更好的了解世界”。相干性就是大数据的杀手锏,美国Target超市邮寄怀孕用品购买手册的案例就是利用大数据相干性预测的一个经典案例,从杂乱无章的购物清单上超市分析发现这个女孩经常买无味湿纸巾和补镁用品推测女孩可能怀孕了,事实也的确如此。这个案例中我们看到超市不用管女孩为什么买这些,它只需要知道这些药品和纸巾都和怀孕有关就可以,这就是所谓的让数据发声,用数据预测。
无论是谷歌的流感预测还是沃尔玛的“啤酒-尿布”案例似乎都让我们觉得大数据是无敌的,是特别牛逼的,可事实真的是这样的吗?首先就大数据本身而言,大数据的分析就是摆在我们面前的难题,我们每天可以产生2.5*10^18字节,这么庞大的数据量,我们要实现短时间内数据的存储分析处理,这需要大数据冗降噪技术,大数据得新型表示方法,高效率低成本的存储,大数据的有效融合,非结构化和半结构化数据的高效处理,大数据挖掘分析的开发环境,大幅度降低数据处理,存储和通信能耗的新技术,而其中的任何一项技术目前都还没有有效解决与完善。其次,数据增值的关键就是整合,但整合的前提就是数据的开放,我们需要的是n=all的数据,而不是抽样样本,然而全社会开放与共享数据还很难,无论是企业还是政府机构对数据共享的认识都甚是缺乏。最后,国内目前能够利用大数据有大数据条件的主要集中在类似BAT这些大型企业和垄断性企业,其他行业没有基础也缺乏能力去做大数据,应用领域窄小,并且将来大数据会成为IT支出中的主要因素,尤其是存储成本,都是让企业望而却步的。 戳中民众之痛的是在大数据的云时代我们是否还有隐私而言呢,举例而言,最近我想买双鞋,淘宝双十一又要到了,我就登录淘宝,逛很多店铺去挑选货比三家,这时候淘宝就记录下了我的浏览数据,知道了我最近要买鞋,然后我每次再登陆进去就会有推荐商品啦,付款需要支付宝,于是阿里有记录了我的信用记录和身份信息,我打车去取快递需要打开定位,我又出卖了我的地址,总结就是一次网购我“交代”了我的喜好、地址、身份、信用,这些都是数据,与其说是我交代了,我可不可以理解为他们盗窃了我们的隐私呢?会不会导致我的隐私泄露产生安全、道德隐患呢?
大数据这座金矿到底值不值得我们去挖掘呢,英特尔中国研究院院长吴甘沙先生说:“鉴于大数据信息密度低,是贫矿,投入产出不一定好。”数据存储和处理都是需要巨大的成本的,可当我们搭建了这样一个平台后发现其实我们赚的还没有成本高时,我们还愿意去坚持吗?亏本的买卖谁都不想的。优步和滴滴打车在即使亏损的条件下依然愿意坚持,不过因为他掌握的用户定位信息中价值密度高并且针对性强,而阿里巴巴硬气的原因不过是掌握了我们较精确,价值较高的实名身份和消费数据,如果将大数据比作石油的话如何从中炼取优质原油才是关键。 数据大到一定量时想保证准确性就会变得艰难。2013年2月,谷歌上头条了,原因是GFT做出的流感预测量是美国疾控中心的估算量两倍还多!解释是由于流感季节因媒体的报道而加剧了民众的恐慌,导致搜素的人数骤增,可见数据量并不意味着我们可以忽略测量的基础性问题和数据的有效性和可靠性,以及相互依赖关系,分析数据的前提是找准数据。大数据依然是一个传统数据收集和分析的替代品,而不是补充。 小心黑天鹅事件。大数据的一个重要作用就是预测,但当我们以为未来尽收眼底是,小心当头一棒。大数据处理的全数据吗?不可能。而任何数据的丢失都能让我们失去“黑天鹅事件”的信号,大数据他所能预测的都是有“先兆”的,可遇到难以预测,不同寻常的根本无先机可言的呢,例如美国的911事件,美国次贷危机呢,中国的雪灾呢,大数据就束手无策,而这些事件一旦发生,后果很有可能无法想象,和大数据保持一段距离,我们更能欣赏他的美。
原子物理论的发展带来了广岛长崎的核灾难,方便袋带来便利的同时也带来了白色污染,炸药发明之初用来建设最后却走向战争夺走无数生命,大数据的明天又该何去何从呢?我们能否利用大数据预测大数据的未来呢?
支付宝的圈子司马昭之心啊…