大数据,如何预测你心中所想?

这几年在互联网界,一直有两个词非常的火:

互联网+

就是「互联网+传统行业」,这个很好理解,传统行业和互联网结合嘛,现在很多传统公司都在做互联网的转型。

大数据

大数据这个词相信大家也不陌生,然而很多人会认为,大数据是高科技,所以跟我们普通人的生活没啥联系……

是这样的吗?

真相却是,你的周围早已有许多应用大数据的事件,只是你并没有察觉到而已。

就比如说前段时间王宝强跟马蓉搞离婚,这事儿在网上闹得沸沸扬扬,火到什么程度呢?

根据百度指数的官方统计:

王宝强的热度竟然比10个里约奥运会的热度加起来还要高!

短短3天,王宝强的微博一下子涨了900万的粉丝,离婚声明那一条微博甚至有300多万条评论。在评论区,网友们纷纷表示同情,无非是什么“马蓉太坏了,宝宝不哭,我们一直在你身边”啊等等。

但是大数据的统计结果却表明:

网友们的真实情绪竟然是快乐的!

这就好比,有要的人嘴上说着不要,身体却很老实;网友们嘴上说着同情,心里却开心得要命……

大数据是怎么得出这个结论的?

原来是有的科技公司,从社交网络上收集了大量人们表达情绪的信息,比如表情符号和标点符号(如感叹号、问号、省略号),还有代表了情绪的关键词。

把这些东西汇总起来,用特定算法分析出人们对王宝强离婚的情绪。

你心里的真实情绪是快乐,这一点天不知地不知,大数据却知道。

事实上,如今大数据的应用范围之广,可能远超出你的想象。

前段时间我读了一本书——《智能时代》,这本书实在太迷人了,我一字不落得给认真看完,作者吴军的文字实在是有趣又有料,强烈推荐!

今天的这篇文章就是我对《智能时代》这本书的思考总结,给你科普大数据的知识,一定可以拓宽你对这个世界的认知。

下面就来看看,大数据在哪些你根本意想不到的领域里大展身手?


1、什么是大数据?


什么是大数据?很多人觉得自己懂这个词的意思。事实却是,他们非但不懂,而且对大数据还有很多的误解。

首先,你知道什么是数据吗?

一个最常见的误解就是认为数据就是数字,这实在大大低估了数据的范畴。实际上,数字只是数据范畴里很小很小的一部分。互联网上的任何内容都是数据:

音频、文字、视频,你访问某网页的次数,甚至你再此网页停留的时间等等等等,都可以被记录下来,成为数据。

建筑师的设计图纸、国家机密档案也是数据,甚至我们的活动本身:一天的出行轨迹、购物、玩游戏的行为也会成为数据。

过去也有数据,但是那时候数据很难收集,而且量很小,导致无法从有限的数据里分析出什么规律,不过幸运的是:

互联网时代来了

随着个人电脑和手机移动端的普及,数据的收集变得越来越容易,收集到的数据越来越「大」,也就是所谓的大数据(big data)

注意,有不少人认为「大」这个字指的是大量的意思,这也是一个普遍的误区,真相是:

大数据≠大量数据

作者吴军告诉我们,「大」的含义至少有三个层面:


体量大:

量大当然是必要条件,但并不充分。

说白了,大数据一定是大量的数据,但大量的数据不一定是大数据。

比如说,你记录下全世界70亿人的出生日期,这是一个庞大的数据量了,但是除了能分析出全世界人口的年龄分布,其实没有什么别的意义。


多维度:

百度曾用大数据做出来一份报告——《中国十大吃货省市排行榜》,有个关于「xx能吃吗」的问题,网友们的回答很有意思:

宁夏网友最关心的竟然是「螃蟹能吃吗?」,内蒙古、新疆、西藏网友最关心的是「蘑菇能吃吗?」,广东、福建、浙江等地的网友最关心的是「XX虫能吃吗?」

螃蟹都不敢吃的宁夏网友看到这份报告可能会吓一跳:世上居然还有人吃虫子!

得出这份报告,百度甚至没有做任何的问卷调查,或是地区饮食文化的研究。

它只做了一件事:

收集「百度知道」里7700万条跟吃有关的问题。

从食物的做法、吃法、营养价值、价格,到提问者所在的地域、时间,甚至连提问者使用的是手机还是电脑这样的行为,都会被记录下来成为数据。

可以看到,百度收集到的数据有非常多的维度,这里体现的就是大数据多维度的特征。

而下一步工作就是把多个维度的数据联系起来,通过计算机算法得到有统计意义的规律。

最终成果便是《中国十大吃货省市排行榜》。


全面性:

注意,全面性和体量大这两个特征很容易混淆。前者指数据的覆盖范围广,而后者单单指数据的体量很大。

比如说,在大学里做一个「学生对食堂饭菜好感度」的调查,如果你只调查了女生而不调查男生,这就叫不全面。

来看下面这个例子:

2012年,一个叫内德·斯维尔的小伙子,竟然成功预测了美国50+1个州的选举结果!

在过去统计学家看来,这根本是不可能办到的事情,而他之所以预测如此精准,是因为:

他收集了几乎所有,人们发表在社交网站、新闻媒体上的跟2012年大选有关的数据。

斯维尔收集的数据非常全面,几乎覆盖了每一个投票人的想法。

如今的美国大选,特朗普和希拉里正打得火热,多家媒体纷纷放出问卷调查,来看看民众更偏向选哪个候选人。多数问卷结果显示:希拉里会获胜。

然而根据Twitter对50多万用户的统计结果,却显示55%的人认为特朗普会获胜!在选举领域里,媒体问卷和大数据的这个比例差距还是很大的。

事实上,传统的问卷调查有很多天生的缺陷,比如说无法做到体量大、全面性等等。

还有些情况下,出于面子和道德压力,传统问卷并不能获得人们的真实想法。

试想,如果百度的吃货调查以问卷形式来做,估计很多人就不会在问卷上表明有「爱吃虫子」的癖好,以免显得自己非常怪异。

但是人们在百度知道上的提问和回答,则没有任何压力,没必要撒谎,所以反映的基本是真实想法。

这也是大数据调查之于问卷调查的一大优势。


2、大数据有什么用?


看到这儿,你可不要觉得大数据仅仅是用来做各种调查啊。

事实上,受益于大数据,很多行业正进行着飞速的产业升级:

制造业、农业、医疗……甚至体育行业!

最后一条你可能不大相信,大数据跟体育又有什么关系呢?


#例一

在NBA的2014~2015赛季,金州勇士队夺得总冠军,但是在2009年,勇士队居然还是NBA最烂的球队之一,排名倒数老二。

勇士队是如何在短短6年里,从烂队走向冠军奖杯的呢?

有人说,勇士肯定是重金请了大牌教练和大牌明星,才有了今天的成就。

事实却是,勇士当初并没有什么大牌教练和球星,6年前新换的老板,反倒是把队伍里仅有的明星球员给卖掉了……这就奇了怪了,一穷二白的勇士是如何迅速成长并拿到总冠军的?

你可能很难想象,勇士队成功的原因在于,它处在一个很特别的地区:硅谷

硅谷的大数据工程师,竟然是勇士队的秘密武器!

通过对NBA无数场球赛的大数据分析,他们发现:

过往几十年NBA各球队的打法,喜欢追求制空权,所以那些大个子球星往往很受欢迎,因为他们可以很轻松地把球装进篮筐,或者直接扣篮。

这些动作看起来华丽,但大数据却发现,它们的得分效率并不高,全队消耗很多体能把球传给大个子前锋,还是在没有失误的情况下,也只能得2分。

于是勇士队的管理层设计了新的战术:

尽量在3分线外投篮,而不是突破到篮下再投。

稍微关注NBA的同学都知道这是谁吧,勇士队的三分球神投手——斯蒂芬·库里(Stephen Curry),他的三分球命中率简直是个神话!

别看库里现在功成名就,6年前身高只有1.91米的库里根本是个没人要的球员……

幸运的是,库里在球队以投篮为核心的思想指导下,成长飞速。不仅帮助勇士夺得了40多年来的第一个总冠军,他在2015~2016赛季投进的403个三分球,也创下NBA史上的新记录。

全队在这个思想的指导下,一个赛季居然投进了1000+个三分球!

训练时,大数据帮助球员纠正姿势;比赛时,大数据还能指导球队随时调整战术。

勇士队的功与名,真的要感谢大数据。


#例二

网易云音乐有一个每日歌曲推荐的功能非常受欢迎,推荐的歌大都不赖,常常是你喜欢的口味。其背后的原理也是基于大数据。

你听一首歌的类别、时长,还有收藏与否、下载与否、评论与否、点赞与否,这些东西都会成为数据,网易云音乐拿这些数据去分析你的喜好。

听的歌越多,收集到的数据也就越多,越能够预测出你的喜好,从而推荐给你喜欢听的歌。

实际上,各大购物网站也在做同样的事,你在淘宝、京东、亚马逊、当当等等网站留下的任何轨迹都会被记录下来,成为大数据分析的对象。

我想你早就发现,每个人的淘宝界面都不一样了吧?

这就是因为购物网站根据大数据,分析出了你个人的喜好,猜到你想要什么商品,最后在广告界面个性化地推荐给你。


3、大数据的“坏”


不仅是购物网站,几乎所有网站都可以获得你的上网轨迹:

你在某个页面停留的时间、点击了哪个超链接,甚至能知道你在离开网站以后又去逛了哪些网站。

就好像在你身上安了一个追踪器。

同样的,我们在百度搜索的每个关键词,在微博、微信、知乎、简书发表的每一句话、每个表情,也会为大数据所用……

现在貌似还没什么问题,但未来,如果到了「万物联网」时代,连钥匙扣、茶杯这样的东西都连上了互联网……

这可能就意味着:

我们的一切行为都可以被数据工程师记录,个人将毫无隐私可言。

事实上,已经有商家在利用这点损害我们的利益。

在某宝,有些人经常买到假货,有些人却以同样的价格买到正品。这很可能不是运气问题,而是因为商家掌握了个人的太多数据:

商家知道你是个买到假货也不吭声的软柿子,还是个锱铢必报的人。

我们可以说这种行为很「脏」,没有职业道德,但又不能说他违法,因为并没有相关的法律条文规范这种行为。

而事实上,在未来智能化社会,单单靠法律是很难根治隐私保护问题的的,有两点原因:

1、查证起来十分困难。

2、法律条文的制定有很高的滞后性,往往上一个案件的法律还没制定出来,新的问题又出现了。

所以说,我们还必须有相应的技术手段保护个人隐私。

已有的隐私保护手段有这2类:

预处理

从收集信息的一开始,就对事关隐私的数据进行加密处理,使得数据工程师分析不出数据的真正含义。这个方法能防止个人窃取数据以谋取利益,可对那些大型的大数据公司基本没效。

双向监视

简单来说,双向监视是指:

如果一个人偷窥别人隐私时,自己的偷窥行为本身暴露了,那么他多少会约束自己的行为。

这就好比,王二正在色眯眯地通过门缝偷窥女孩洗澡,但是他突然发现张三看到他在偷窥,偷窥行为暴露了。

那么王二的反应,肯定是立刻捂头盖脸地跑掉。

《失控》作者凯文·凯利

凯文·凯利(Kevin Kelly)和同事们通过实验发现:

如果要人输入自己的隐私才能够偷窥到别人的隐私,多数人会选择放弃偷窥。

想要侵犯别人的隐私,必须以自己的隐私来作为代价,这就叫双向监视,是可以在技术手段上实现的。

事实上,作者吴军和凯文·凯利曾一起做过调查,发现现在许多人只是把个人隐私挂在嘴边,实则对隐私保护普遍不够重视。而在未来,随着大数据技术的普及,隐私问题会越来越突出而敏感。

然而,当技术与个人隐私产生矛盾,技术是绝不会停止发展的,所以我们只能用技术解决技术问题。

未来如何,我们拭目以待?


小凡荐书

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容