《对伪大数据说不》-更新内容

s27983409.jpg

怎么读这本书。实际上这本书我也只是刚刚把前言读完。经过一段时间以后我读书的习惯似乎改变了。以前是有什么读什么,现在是需要什么读什么。这本书是在看到《Hadoop基础教程》以后找到的一本书,在《Hadoop基础教程》的读后感中我提出观点,Hadoop只是用力为决策提供数据,仅仅是个工具。如果说Hadoop是提供了分析的工具,提供分析数据。那么这本书就是在获得数据以后的决策过程中出现的错误的解读。这也是大数据中最重要的过程,数据本身并不说明任何问题,最终还要靠人的思维来决策。

当我再前言中看到有关西部航空公司的统计数据的例子的时候,另一个例子就冒了出来。

数据分析中出现最多的问题是没有看清楚问题的本质,误用统计数据结果

我举一个我遇到得例子。

有一次遇到一个研究癌症药物的美国教授做报告。简短一点,他研究的药物对培养的癌细胞有95%的杀伤能力,效果显著。但是研究者似乎故意忽略了一个问题,接受这种药物治疗的患者初期都会出现病灶的减轻,但是后期会复发。95%的效果是统计出来的,应该是有很大大的说服力,但是95%和复发又是什么关系呢?或许有关系,或许没有关系。
我当时正在看干细胞的问题。于是我提出观点:“根据目前研究发现,癌症病灶里的细胞其实也分两类,一类是癌症细胞,一类是癌症干细胞。这里两类细胞的生理特征是完全不同。会不会是95%的统计效果刚好掩盖了癌症干细胞的那一部分呢?” 其实我也不确定癌症干细胞到底是不是存在,只是一个假设,不是结论。

这样的话题在统计学中叫做长尾理论,或者叫做蝴蝶效应。低概率的事件任然有可能造成几率非常小,但是一旦发生,仍然可以导致可怕的结果。

带着这种想法来读这本书是不是会有不同的感受? 你能从你身边找到类似的例子从而和作者发生共鸣吗?

为什么西部航空公司的表现和统计数据不一致?

在美国西部有两家航空公司,一家是西部航空公司,总部位于菲尼克斯(凤凰城)一家是阿拉斯加航空公司,总部位于西雅图。西雅图位于美国的西北部,相对与菲尼克斯,飞往西雅图的航班受到更多的天气影响。

在衡量乘客的总体满意度的航班正点率上,西部航空公司被狠狠的涮了一把。

在整体航班的平均正点率上西部航空公司比阿拉斯加航空公司要高,但是却破产了。出了什么问题?

如果分析西部五个主要机场的数据,问题就解决了。分别统计五个机场的正点率的时候,阿拉斯加航空公司的正点率都比西部航空公司高。但是为什么总体的平均正点率阿拉斯加却不如西部航空公司高呢?

原因是,阿拉斯加航空公司的总部在西雅图,进出港航班多,同时西雅图的天气问题使航班正点率下降。 在西雅图机场阿拉斯加航空公司的航班正点率也比西部航空公司要高。但是由于进出港航班数多,无形中使阿拉斯加航空公司的正点率下降。 西雅图机场的航班正点掩盖了航班满意度的真实水平。

可见数据量大的数据也不总是带来分析的正确性.

这个例子很有意思。

外国人也玩扬长避短

扬长避短这个词是个褒义词,但是这里借用一下。
在美国大学法学院有个全国性的排名,里面有很多调查因素(参数),

  • [ ] 同行评价
  • [ ] 质量评价:律师和法官评价,法学院入学考试成绩(LSAT),本科生成绩GPA(中位数)
  • [ ] 学生选择
  • [ ] 学生前途
  • [ ] 教学资源

美国密西根大学法学院在08年的法学研究生招生中采用了GPA成绩来作为申请法学院入学的成绩标准,本校学生GPA成绩高的优先录取。拥有LSAT成绩的学生反而不予录取。 通过把GPA和LSAT两个评价标准缩减为一个标准。这样的做法是使GPA成绩低,但是LSAT成绩高的学生没有办法进入法学院。在这个过程中密西根州立大学的GPA中位数成绩随着整体的成绩的提高了。反映在大学法学院排名上就是排名更加靠前。

看似很多因素的统计分析结果,漏洞依然存在。所以这样的多因子分析没有什么意思。再其他几个因素上也有漏洞或缺陷存在。

本书的大多数例子其实都是基于这个主题。大数据带来的并都是有用的分析。

里面有几个商业智能的例子也很有意思。值得一读。

体会是什么呢?大数据并不仅仅是冷冰冰的数字,他要越来越忠实于实际的情况。

读完了再来更新 2016年12月20日下午更新。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容