为什么用要描述的方法呢?之前的检验不可行吗?
我们在前一篇推文中已经发现,右图y的分布挺像正态的,尤其是CDF图和理论曲线十分接近,为什么SW检验和AD检验仍然提示不满足正态分布?
1、检验方法的弊端
(1)首先要明确,正态性检验的无效假设是"数据服从正态分布“,也就是说, SW等方法先计算偏离正态的程度,然后看能否推翻无效假设。跟其他的假设检验一样,当数据越多时,越容易推翻无效假设。就像t检验中比较两组均值一样,当样本量很大的时候,即使差别0.01也会有统计学意义;同样, 当样本量很大的时候,即使偏离正态很小,也会有统计学意义。 (2)有统计学意义未必代表有实际意义,因为统计学的差异有时对我们来说并不是很重要,如两组身高的差值为0.1cm, 即便有统计学意义,也没有多大实际意义。同样,正态性检验结果的P=0.09和P=0.01,也并不意味着前者的正态性更好,也许只是说明后者样本更多而已。在大样本的时候,从统计检验的角度来看,你的数据几乎永远也不符合正态分布。
2、描述性方法应运而生
不少统计学家并不建议用统计学检验的方法来判断正态性,而是推荐用图形等描述性方法来进行判断。虽然略带主观性,但是考虑到多数的经典统计方法对“偏离正态”这一问题都是有一定抵抗力的,因此图形判断法还是比较有价值的。
3、常见的判断正态性的描述性方法
(1)Q-Q图和P-P图
Q-Q图(左图)是Quantile-Quantile 的缩写,也就是分位数-分位数图。在Q-Q图中,横坐标是正态分位数,纵坐标是实际数据的分位数。其思想就是:比较理论分位数和实际分位数的差距,如果理论分位数和实际分位数没什么差别,那么图中所有的点应该都在一条直线上;如果差别大,就会偏离直线较远。
因此, <u style="box-sizing: border-box;">Q-Q 图判断正态性的原则就是:如果图中的点大致呈一条从左下至右上的直线,则可以认为是正态的。</u>
P-P(Probability-Probability) 图(右图)的思想跟Q-Q 图差不多,只不过不是用分位数,而是用累积概率。它比较理论上正态分布的累积概率与样本数据的累积概率,其横坐标为理论的累积概率分布,纵坐标为样本数据的累积概率分布。显然,如果二者吻合,则应该是一条从左下至右上的直线;如果偏离直线较远,则说明样本数据不服从正态分布。
图片中x变量所对应的Q-Q图和P-P图,不难得出,这两幅图的点都不像一条直线,提示可能不满足正态分布
(2)茎叶图
从茎叶图中可以看出很多信息,如可以很容易发现,大多数数据集中在10 以下,而且整个茎叶图的形状并不是对称的,这些都说明变量x很可能是不服从正态分布的。 作为对比,我们可以看下y变量的对比,变量y的茎叶图提示,大多数数据集中在50到90之间
变量y可能比变量x更接近正态分布。变量y的茎叶图提示,大多数数据集中在50~90之间
(3)利用四分位数间距和标准差进行简易判断
对于一个来自正态分布的样本,其四分位数间距(IQR) 和标准差(s) 之比大约为1.34 。因此,如果IQR/s的值在1.34左右,则可以认为其满足正态分布。 对于图11.1中的变量x 和y, 其IQR/s分别为4.00/3 .97=1.01和20.65/13.07=1.58, 相对而言,1.58偏离1.34更小一些,因此可以简单判断很可能变量x偏离正态更严重一些。