数据不正态分布如何办

在实际研究中,很多时候都需要数据满足正态分布才可以。比如说回归分析,其实做回归分析有一个前提条件即因变量需要满足正态分布性。也比如说方差分析,其有一个潜在的前提假定即因变量Y需要满足正态分布。还有很多种情况,比如T检验,相关分析等等。

但这种情况往往被分析人员忽略掉,或者是数学基本不够扎实,或者是无论如何数据均不满足正态分布等客观条件,也或者其它情况等。如果说没有满足前提条件,分析的结果会变得不科学严谨,分析结论会受到置疑。

哪些研究方法需要数据满足正态分布才行呢?以及如果不满足正态分布时应该如何处理呢?接下来会逐步说明。

第一:需要满足正态分布的几类常见研究方法:

SPSSAU整理

常见会涉及五种研究方法,它们对正态性要求相对较高,如果不满足正态性则会有对应的处理。

线性回归分析

线性回归分析,很多时候也称回归分析。其对正态性的要求较为严格,包括因变量Y需要满足正态性要求,同时残差也需要满足正态性。如果说因变量Y不满足正态分布,通常情况下有以下几种处理办法。

第1:对因变量Y取对数处理(包括自然对数和10为底的对数);这可以在SPSSAU的生成变量功能里面找到;

第2:如果数据接近于正态分布,则接受其为正态分布性。此种情况较多,因为在研究影响关系时,线性回归最适合,如果不进行线性回归,通常情况下很难有更适合的研究方法。因而很多时候只要数据接受于正态性即可,而不用强求数据完美的正态,事实上在生活中绝对的“正态性”并不存在。使用正态分布检验方法进行验证正态性最为严苛,因而可使用正态分布图直观查看数据分布情况,接近于“正态分布”更符合实际情况;

第3:加大样本量;有时候数据太少时,即使正态分布的数据,也因为样本小没有办法覆盖各种情况,从而变得不正态,因而加大样本量会减少这种情况产生。

Pearson相关分析

Pearson相关分析(也称皮尔逊相关分析,很多时候直接称呼为相关分析),在实际研究中使用最多。其实Pearson相关分析也有着默认的前提条件,即数据满足正态分布性。但现实中的数据很难满足正态分布性,此时建议使用Spearman(斯皮尔曼)相关系数进行研究即可。

方差分析

方差分析(这里特指单因素方差分析),其默认有个前提条件是因变量需要符合正态分布性,可能是由于即使非正态分布,方差分析的结果也较为稳健,因而很少有人先进行正态分布性检验。

事实上方差分析的因变量也需要满足正态分布特质,如果没有满足,则可以使用非参数检验进行检验。具体非参数检验的类型来看,如果X的组别为两组,例如研究人员想知道不同性别学生的购买意愿是否有显著差异,按性别分为男和女共两组,则应该使用MannWhitney统计量,如果组别超过两组,则应该使用Kruskal-Wallis统计量结果。SPSSAU自动为你选择MannWhitney或者Kruskal-Wallis统计量。

独立T检验

独立T检验(也称T检验),其默认有个前提条件是因变量需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是MannWhitney检验进行研究。

单样本T检验

单样本T检验,其默认前提条件是数据需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是单样本Wilcoxon检验进行研究。

配对样本T检验

配对样本T检验,其默认前提条件是差值数据需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是单样本Wilcoxon检验进行研究。其实配对样本T检验与单样本T检验的原理是一模一样,无非是进行了一次数据相减(即差值)处理而已,因而其和单样本T检验保持一致。

第二:理论与现实的“相悖”

从理论上讲,很多研究方法需要满足正态分布特质,但现实情况下,很难满足正态分布性。SPSSAU认为有两点原因。

1是抽样样本过少,很难cover所有情况,所以导致总体是正态分布,但抽样样本不满足正态分布,比如中国13亿人的身高肯定是正态分布,但抽样100个人可能就不会正态分布;

2是认知的不一致,事实上正态性是一种数学理论上的分布,实际情况下只要数据分布基本满足“钟形曲线”特征,SPSSAU认为也应该将数据看成是正态分布。

因而在实际研究过程中,很可能会出现需要满足正态性要求,但是并不满足,此时应该如何处理呢?SPSSAU认为有三种处理方式,如下图:

SPSSAU整理

第一种:使用正态分布图直观判断正态分布特质,而不是使用检验方法。原因在于检验方法比较严苛,而现实数据满足“钟形曲线”特征即可;

第二种:将数据取对数,或者开根号等处理。如果数据值非常大,取对数或者开根号等,会对数据进行“压缩”处理,相对意义上单位会减小,但值的相对意义还是一样,通常情况下,数据会变得相对“正态”一些;此步可使用SPSSAU的“生成变量”功能即可完成。

第三种:使用其它研究方法。如果是使用方差分析,T检验等,如果不满足正态性,则有对应的非参数检验方法可以使用。如果是非参数检验方法进行差异对比,则应该使用中位数去表述大小差异等,而一般不使用平均值(满足正态分布性时才使用平均值表示整体水平)。当然,SPSSAU均会提供对应的非参数检验方法等,可直接使用。

第三:正态分布的“检验方法”

上述已经讲了很多关于正态分布的话题,那如何对正态分布性进行检验呢?SPSSAU共提供以下几种检验,如下:

第一种:图示法(使用SPSSAU的直方图即可,可得到类似如下的图等)

第二种:检验方法

SPSSAU共提供两种正态性检验方法,包括S-W检验和K-S检验。小样本(小于50)时建议使用S-W检验,大样本(大于50)时建议使用K-S检验;此两个检验的原假设为数据正态分布,因而P值>0.05,说明该项具有正态分布特质;这些均会在SPSSAU的智能分析中默认提供。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 在实际研究中,很多时候都需要数据满足正态分布才可以。比如说回归分析,其实做回归分析有一个前提条件即因变量需要满足正...
    spssau阅读 3,274评论 0 3
  • 检验问题可划分为两大类:参数检验和非参数检验,其中总体分布的具体函数形式的前提下,只是其中若干个参数未知称为参数检...
    spssau阅读 1,479评论 0 1
  • 在日常分析中,常会遇到不知道选择什么分析方法的尴尬情况出现,尤其是在面对几种相似的方法,不知道它们之间有什么差别,...
    spssau阅读 3,797评论 0 24
  • 本文将对非参数检验流程进行总结,下图为非参数检验大致流程: 1.何时使用非参数检验 或许你还没有理解什么是参数检验...
    spssau阅读 2,923评论 0 5
  • 非参数检验用于研究定类数据与定量数据之间的关系情况,是指不考虑总体的参数和总体分布类型,利用样本数据的总体分布形态...
    spssau阅读 3,329评论 0 1