怎么读这本书。实际上这本书我也只是刚刚把前言读完。经过一段时间以后我读书的习惯似乎改变了。以前是有什么读什么,现在是需要什么读什么。这本书是在看到《Hadoop基础教程》以后找到的一本书,在《Hadoop基础教程》的读后感中我提出观点,Hadoop只是用力为决策提供数据,仅仅是个工具。如果说Hadoop是提供了分析的工具,提供分析数据。那么这本书就是在获得数据以后的决策过程中出现的错误的解读。这也是大数据中最重要的过程,数据本身并不说明任何问题,最终还要靠人的思维来决策。
当我再前言中看到有关西部航空公司的统计数据的例子的时候,另一个例子就冒了出来。
数据分析中出现最多的问题是没有看清楚问题的本质,误用统计数据结果
。
我举一个我遇到得例子。
有一次遇到一个研究癌症药物的美国教授做报告。简短一点,他研究的药物对培养的癌细胞有95%的杀伤能力,效果显著。但是研究者似乎故意忽略了一个问题,接受这种药物治疗的患者初期都会出现病灶的减轻,但是后期会复发。95%的效果是统计出来的,应该是有很大大的说服力,但是95%和复发又是什么关系呢?或许有关系,或许没有关系。
我当时正在看干细胞的问题。于是我提出观点:“根据目前研究发现,癌症病灶里的细胞其实也分两类,一类是癌症细胞,一类是癌症干细胞。这里两类细胞的生理特征是完全不同。会不会是95%的统计效果刚好掩盖了癌症干细胞的那一部分呢?” 其实我也不确定癌症干细胞到底是不是存在,只是一个假设,不是结论。
这样的话题在统计学中叫做长尾理论,或者叫做蝴蝶效应。低概率的事件任然有可能造成几率非常小,但是一旦发生,仍然可以导致可怕的结果。
带着这种想法来读这本书是不是会有不同的感受? 你能从你身边找到类似的例子从而和作者发生共鸣吗?
为什么西部航空公司的表现和统计数据不一致?
在美国西部有两家航空公司,一家是西部航空公司,总部位于菲尼克斯(凤凰城)一家是阿拉斯加航空公司,总部位于西雅图。西雅图位于美国的西北部,相对与菲尼克斯,飞往西雅图的航班受到更多的天气影响。
在衡量乘客的总体满意度的航班正点率上,西部航空公司被狠狠的涮了一把。
在整体航班的平均正点率上西部航空公司比阿拉斯加航空公司要高,但是却破产了。出了什么问题?
如果分析西部五个主要机场的数据,问题就解决了。分别统计五个机场的正点率的时候,阿拉斯加航空公司的正点率都比西部航空公司高。但是为什么总体的平均正点率阿拉斯加却不如西部航空公司高呢?
原因是,阿拉斯加航空公司的总部在西雅图,进出港航班多,同时西雅图的天气问题使航班正点率下降。 在西雅图机场阿拉斯加航空公司的航班正点率也比西部航空公司要高。但是由于进出港航班数多,无形中使阿拉斯加航空公司的正点率下降。 西雅图机场的航班正点掩盖了航班满意度的真实水平。
可见数据量大的数据也不总是带来分析的正确性
.
这个例子很有意思。
外国人也玩扬长避短
扬长避短这个词是个褒义词,但是这里借用一下。
在美国大学法学院有个全国性的排名,里面有很多调查因素(参数),
- [ ] 同行评价
- [ ] 质量评价:律师和法官评价,法学院入学考试成绩(LSAT),本科生成绩GPA(中位数)
- [ ] 学生选择
- [ ] 学生前途
- [ ] 教学资源
美国密西根大学法学院在08年的法学研究生招生中采用了GPA成绩来作为申请法学院入学的成绩标准,本校学生GPA成绩高的优先录取。拥有LSAT成绩的学生反而不予录取。 通过把GPA和LSAT两个评价标准缩减为一个标准。这样的做法是使GPA成绩低,但是LSAT成绩高的学生没有办法进入法学院。在这个过程中密西根州立大学的GPA中位数成绩随着整体的成绩的提高了。反映在大学法学院排名上就是排名更加靠前。
看似很多因素的统计分析结果,漏洞依然存在。所以这样的多因子分析没有什么意思。再其他几个因素上也有漏洞或缺陷存在。
本书的大多数例子其实都是基于这个主题。大数据带来的并都是有用的分析。
里面有几个商业智能的例子也很有意思。值得一读。
体会是什么呢?大数据并不仅仅是冷冰冰的数字,他要越来越忠实于实际的情况。
读完了再来更新 2016年12月20日下午更新。