今天分享一下这几天学习大数据有意识的知识点。先讲一个有趣是数据分析。
有人把美国各学校每年的毕业照做了个数据分析,每十年算一个全体男生全体女生的平均脸,从1900年代到2010年,你会发现一个趋势,就是四五十年代以前美国人拍照片都是不笑的,很严肃,但是四五十年代以后开始笑了,很多人都没有研究出这是为什么?
后来有人给了一个非常好的解释,就是最早拍照片人都是模仿油画里的人像。因为那个时候画油画需要很长时间,一个人不可能一直笑下来,所有大部分油画的人一般都是不笑的,以前人也没想拍过照片要笑,那后来为什么笑了,因为四五十年代柯达公司把照相技术普及了(胶卷),成本降低很多,做大量商业推广,随时用照片可以记录幸福时刻,随时可以记录笑脸,结果笑的人就越来越多。
------------
下面讲大数据三个用处,大家可以知悉一下:
1、从罕见案例中发现规律
比如说一些非常少见的疾病的一些开始的迹象到底是什么,如果知道的话,我们可以尽早干预,早治疗,这是非常关键,当一个人出现哪些症状,他就应该去医院检查一下,看看是不是自己得了这个病。以前这些研究都是必须收集一定的病例,做统计研究,现在有研究人员发现可以用搜索的一些记录,找出些规律。你比如说他先去锁定那些搜索的得了这个病(胰腺癌症)怎么办的新人?几个月后一直跟踪他是否正常,然后发现这些人的症状(背部痛,皮肤黄)和别人真的不一样,很有可能他真罹患疾病。也就是说以前可能我们更多的是要不断的去看病例的积累,现在可能正利用数据就可以去注意这种大数据中的一些关键信息,得出结论。
2、量化一个效应的大小
讲得非常有意思,举例说在芝加哥天气冬天非常阴冷,但在有些地方像加州和夏威夷,阳光灿烂。现在有一个问题就是说住在芝加哥的抑郁症,为了治疗这个抑郁症,该不该搬家去夏威夷?就想知道搬到夏威夷是不是可以缓解抑郁症,但不知道这个环境影响程度大和小。Google的数据就可以帮助你,它的搜索显示就是住在夏威夷,搜索抑郁症的比率比芝加哥这种寒冷地区少40%。要知道一般抗抑郁药物也只能让抑郁症发病减少20%,你发现数据告诉你搬家是治疗抑郁药物效果的两倍。你可以大数据就可以告诉我们一个大概的效果。
3、反直觉的结论
这个案例更有意思,假设说你有两个潜在的结婚对象,一个是和你有很多共同的好朋友,另外一个是圈外人,你不熟悉他的朋友,他也不熟悉你朋友,如果说你想结婚,你应该跟谁结婚呢?大部分人都会说第一个,这个人和你的朋友都好相处融洽,你们有共同点,结婚后会相处更好。但是大数据说不对,在facebook上的交友状况单身已婚,有男女朋友的信息怎么公开的,所以有人用这个数据做了一个分析,他锁定那些是夫妻或男女朋友的人,看看他们朋友圈有多少重合之处,他们发现重合度越高的夫妻和男女朋友有可能在一定时间内再次宣布单身,而那些时间长的往往是各自不同的朋友圈人。