数据统计是一门枯燥、难懂的工作吗?除了数字、图表还是图表吗?其实,在生活中,我们经常可以运用统计学去做分析。今日,我们大圣众包平台(www.dashengzb.cn)就挑选几个统计学相关的有趣的小案例。
1、啤酒与尿布的故事
啤酒与尿布的故事,应该早有耳闻吧,这个算是经典数据挖掘的案例了。故事就是全球最大的零售商沃尔玛通过分析顾客购物的订单数据后发现,很多周末购买尿布的顾客同时也购买啤酒。特别是年轻的爸爸,买尿布照顾小孩之时,不忘自己看球赛喝啤酒的爱好。小小的数据挖掘,大大提升了销量,也塑造了个经典故事。
2、QQ圈子把前女友推荐给未婚妻
这并不是个笑话或者个例哦,记得2012年3月腾讯推出QQ圈子,这个圈子就是根据你的共同好友的连锁反应摊开用户的人际关系网,把用户的前女友推荐给未婚妻,把同学同事朋友圈子分门别类,利用大数据处理能力给人带来“震撼”。
3、《红楼梦》作者考证,曹雪芹只写80回
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。不过,这种看法一直都饱受争议。
能否从统计上做出论证?从1985年开始,复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。
一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词(之,其,或,……;呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志。之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的。利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。
之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,还有一些别的增加成分。而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等。
这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,使红学界大为赞叹。
4、乔布斯利用大数据延长生命
“苹果之父”乔布斯于2011年10月5日去世,其实,乔布斯犯癌症不是一天两天的事了,他曾支付几十万美元医疗费,进行了对所有DNA和肿瘤DNA进行排序,然后医生根据基因的数据文档进行针对性治疗用药,这一行为也使得他成为世界第一人。因此,他延长好几年的生命,要不然可能早死了。
5、出租车肇事缩小调查范围
某市发生一起出租车肇事逃逸案件,当时目击证人仅有一位。据证人陈述,肇事车为绿色。该市出租车仅有蓝、绿两种颜色,其中0.5%的出租车为绿色。目前已排除了外市出租车肇事的可能性。
同时,为了验证证人的辨色能力,还专门对其进行了辨色测试。测试结果表明,无论对蓝色还是绿色,证人都能以95%的概率判断正确。即若出租车为蓝色(绿色),证人100次中能有95次准确地判断出车为蓝色(绿色)。
现在的问题是公安部门是否应该完全相信证人的目击,而把调查完全放在该市的绿色出租车上?
通过统计中贝叶斯公式的计算,我们会发现证人的目击并不能成为调查的依据,仍然需要将调查的重点放在蓝色出租车上。
6、Google成功预测冬季流感
2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。
其实,生活中还有很多利用数据分析、统计学等原理的案例,之前我们大圣众包也盘点过一些案例,理论要学以致用,运用到实际生活中才有魅力啊!
原文地址:http://www.dashengzb.cn/articles/a-164.html
(更多大数据与商业智能领域干货、兼职机会及行业资源分享等请关注大圣众包平台,或添加大圣花花个人微信号(dashenghuaer),拉你入bigdata&BI交流群330648564。)