余晟以为:大数据漫谈(精华版)

经常有朋友问,免费的生意到底是怎么玩的?团购这种“站在跟前打折”的做法没有猫腻吗?每次我解释完这类问题,常会有人感叹说:好精明。是的,传统上说做这种生意的人必须“心眼多”、“会算”。但换个角度看,“精明”和“心眼多”并不是独特的天赋,说到底无非是“驾驭数据的能力”而已。如果说过去驾驭数据很大程度上需要依赖聪明才智,那么现在依靠技术的发展,驾驭数据的门槛已经大大降低了,进入“大数据”时代之后,这一点应该体现得更加明显。不得不承认,”大数据“已经成了热门的词汇,仿佛一夜之间,我们就进入了”大数据“时代,处理数据的各种限制和困难都不复存在了。随之而来的,大家驾驭数据的能力都应该突飞猛进,玩转数据再也不是什么难事。但是,事实真的如此吗?

不幸的是,现在很多所谓的”大数据“,只有量的积累,没有质的提升,只有规模的增长,没有价值的飞跃。依靠迅速提升的存储能力,我们可以保存几乎无限的数据。但是大家能从数据里挖掘出来多少内容?看来看去,似乎还只是原先的那些指标,充其量是能更快得到结果而已。这就是我们想要的”大数据“吗?如果不是,真正的”大数据“应该怎样玩?

要回答这个问题,可以去阅读各种和”大数据“相关的书籍,得到一大堆”经典“例子,也可以听听在每天与数据打交道的先行者们的说法,倾听来自第一线的感悟。

很多人还没有为大数据做好准备,最明显的,还有很多公司仍然在定期清理日志。存储容量在大数据时代已经不再重要,所以”存储日志“并没有严格的容量限制。即便是看来简单的日志,也包含了足够多的数据,只是尚未挖掘出足够的价值。《大数据时代》的作者牛津大学教授舍恩伯格推进了一步:传统观念里大家把数据视作成本,为了某个目的(或者假设),精打细算地收集数据,分析得出结论。但是到了大数据时代,因为容量不再是问题,所以数据的角色从成本变成了环境,很多探索也变为从“无目的”收集的海量数据中提炼价值的过程。所以在大数据时代,背靠云服务提供商,大家都应当在头脑里把“容量”和“成本”解绑,改换全新的思维方式。

“非结构化数据”是未来的重要发展方向。长期以来,有很多技术人员——包括我在内——都期望世间万物都是规范严谨、逻辑清晰的,就好像柏拉图那纯净的理念世界。然而真实的世界里总是充满了噪音、变异、错误,于是大家需要做大量的规范和清洗,而且免不了抱怨连天。近几年我逐渐想到,或许我们不应该简单把不规范的世界肢解后硬塞到规范的世界里,而应该用更高明的办法来驾驭不规范的世界;不应当强求接收的数据都是”结构化“的,而应当努力适应各种非结构化的数据。

现在很多的云服务都侧重存储和计算,而忽略了真正的应用,云服务更习惯扮演简单的“保险箱”,不去关心箱子里到底装了什么,能挖掘出什么价值。相应的,很多的应用开发商也只把云服务当“保险箱”来用,所有的应用都由自己来动手。

比如对于常见的视频类应用,无论是SNS圈中流行的秒拍,还是安防领域热门的视频监控,其背后的要求和逻辑是有很多共性的。但是长期以来市场上并没有这种”数据+应用“的解决方案,所以即便有云服务,应用的开发团队还是需要花费大量的精力来做鉴权、转码、分发、直播等业务。

造成这种现象的重要原因是云服务时代的脱节:网络上现成的类库往往侧重于功能,在单机来做相当简单,但是云环境下的玩法不同于单机,所以把单纯的功能变成云服务环境下的应用就成了相当有挑战的工作。结果,应用开发商自己来包装却事倍功半,或者云服务提供商提供了一些功能,但往往失之简单,无法与应用深度结合。结果就是功能和云服务融合不起来,总有功亏一篑的遗憾。

如果云服务提供商能深入理解各种应用,把通用服务抽象出来并以云服务组件的方式提供,就能实现云服务提供商和应用开发商的双赢。如果要给云服务打分的话,数据的存储和简单处理就像是1,各种包装好的应用组件就像是0,有多少种应用组件,1后面就有多少个0,效能就可以增加多少个数量级。

关于数据的“动静结合”,我不由得想起以前看过的一本书,《硬球:政治是这样玩的》,分享的经验,都在宣示“数据是这样玩的”,让大家看到数据的真正玩法,刷新大家对数据的认识。

如何确保“大数据”真正反映了现实,让我们能基于此认识世界呢?

我们当然可以收集海量的、非结构化的数据,但现实世界高度复杂的,在应对大数据时,我们如何才能证明在我们构建的“数据世界”里已经包括了足够的数据?比如要分析人的某人运动模式,我们当然需要收集人的运动轨迹,除了常见的经纬度和速度,是否还需要关心高度、温度、湿度、心跳等等信息?如果某项信息,比如血压,与我们关心的内容或规律密切相关而又没有被收集进来,即便有了海量数据,有了超强的数据分析能力,我们是否仍然会茫然无绪?退一步说,如果这些数据已经收集了,但结构不同,分布不同,归属不同,我们应该如何把这些数据串通融合起来,真正发现其中的规律?

这些问题我没有答案,我也认为暂时不可能有答案。因为解答这类问题,不再依赖单纯的思辨和逻辑的推理,而是更多需要依靠扎扎实实的探索,尤其需要大量有聪明才智和深厚积累的人才的持续投入。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容