统计工具使用时常见的错误

即使我们收集的数据是对我们研究的问题是很有帮助的,但是有时候统计方法的错误使用也会给我们呈现出截然不同的结果。

一、中位数与平均数

不管是中位数还是平均数,都可以衡量一组数据的集中趋势。但是当数据分析中只有他们之中一个出现的时候就需要小心。例如,根据小布什政府的说法,其政府的减税策略将有9200万美国人享受减税待遇,人均减税额超过1000美元。实际上确实会有9200万美国人将享受减税待遇,但是其中的大部分人不会减少约1000美元的税款,因为减税的中位数还不足100美元。只有相对较少的巨富们才有资格享受大额减税,正是这些人拉高了平均值,让人均减税额看起来比绝大多数美国人真正享受的要高。这是因为平均值受异常值影响较大。然而中位数由于是位置代表值,不受极值的影响,所以在一组数据的分布偏斜程度较大的时候,中位数是一个好的选择。但是也正是因为中位数对异常值不敏感,在某些情况下,中位数也会掩盖事实的真相。生物进化学家史蒂芬.古尔德曾经被诊断出患有某种癌症,它的半数预期寿命(也就是病人寿命的中位数)仅仅只有8个月,但是实际上他活了20年。中位数的定义告诉我们有1/2的病人活不到8个月,但另外1/2的病人至少可以活8个月,甚至比8个月长很多。中位数不考虑数据距离中间位置多远或者多近,而是关注它们是高于中间位置还是低于中间位置。所以使用中位数还是平均数,关键就在于数据分布里面异常值对事实的真相是起到扭曲作用,还是其重要的组成部分。这两个例子说明,在实际分析数据的时候,要根据数据的实际情况使用统计工具,正确的判断要比精确的数学计算重要。

二、 回归分析

回归分析可以为复杂的问题提供精确的答案,但是这些答案却不一定正确。在错误运用这一统计工具的人的手中,回归分析会得出误导甚至错误的结果。即使在可以正确运用这一统计工具的人的手中,很多人往往会陷入使统计数据看起来更加顺眼,而不是反映真实情况的错误之中。

1.用线形回归方程来分析非线性关系

无论什么工具,离它的初始功能偏差越大,其效果就会越差。只有当变量之间关系为线形时,线形回归分析才能使用。当我们一股脑将数据输入到电脑中的时候,电脑也会计算出一个系数,但是这个系数将无法准确反映各个变量之间的真正关系,避免这个错误很简单,只要在做回归分析之前,计算各个变量的皮尔逊相关系数,确定变量之间确实存在线形关系即可。

2.将相关系等同于因果关系

因果与相关,这两种关系很容易被混淆,一旦混淆,就会影响我们的判断,做出错误的决策。曲解两个变量之间的相关关系的做法有很多,广义上被称为伪因果关系。

相关关系就是指两个变量间存在一种连带关系,即当一个变量的值发生变化时,另一个变量的值也相应地发生变化。相关分析的目的在于了解两个变量之间的关系强度,即用相关系数来描述x y 两个变量之间的共变特征。相关分析中,两个变量之间的关系是双向的,不涉及两个变量间的因果关系。

因果关系是指某个因素的存在一定会导致某个特定结果的产生。因果分析是为了确定引起某一现象变化原因的分析,主要解决“为什么”的问题。因果分析就是在研究对象的先行情况中,把作为它的原因的现象与其他非原因的现象区别开来,或者是在研究对象的后行情况中,把作为它的结果的现象与其他的现象区别开来。因果分析的目的在于了解一个变量怎样随另一个变量变化而变化。因果分析必须明确谁是自变量,谁是因变量。

因果关系和相关关系也是有联系的。因果分析以相关分析为基础,只有两个变量之间存在高度的相关关系时,因果分析才有意义。一般先进行相关分析,测定现象之间的相关程度大小,进而决定是否进行因果分析,推断出变量之间的因果关系。

3.遗漏重要变量

假如回归方程中遗漏了某个重要解释变量,尤其是方程中的其他变量又恰好可以覆盖了遗漏的解释变量的影响的时候,那么回归分析的结果就会变得非常具有误导性。假设如有研究指出,常去打高尔夫球易患心脏病、癌症和关节炎,这很有可能是遗漏了年龄变量引起的,在美国,通常来说年龄越大,打高尔夫球的时间和机会就越多,尤其是在退休之后。所以导致疾病的并不是打高尔夫球,而是衰老。在这个例子中,年龄是一个被遗忘的重要变量,当我们用回归方程去解释打高尔夫球与疾病的关系时,如果没有考虑年龄因素,那么是否打高尔夫球这个变量就会超出自身的解释作用:它不光告诉我们打高尔夫球对疾病的影响,还告诉我们年纪增长对疾病的影响(因为打高尔夫球的人通常比较年长)。最糟糕的情况就是认为打高尔夫球对健康有损害,然而事实正好相反。可以通过检验回归方程是否显著来避免这个错误,如果回归方程不显著,就要重新考虑解释变量的选择。另外遗漏相关变量还会导致残差之间具有强烈的相关性,也就是产生自相关的问题,通过DW 检验或者画出残差图可以发现自相关的问题。

4.脱离数据进行推断

和其它形式的统计推断一样,回归分析的目的是利用现有数据帮助我们更好的认识世界。然是需要强调的是,我们的结论仅仅是对与所分析样本相似的数据有效。所以在给出结论的时候要明确它所适用的范围。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343