多水平模型打破“独立”条件
广义线性模型除要满足“线性”这一条件外,还有一个重要的条件就是“独立性" 。如果不满足线性条件,可以考虑广义可加模型;如果不满足独立性条件,则可以考虑多水平模型(Multilevel Model)。
1、什么是多水平?
(1)不难理解,所谓多水平数据,也就是自然形成的层次数据。
(2)在多水平数据中,最低层次称为水平1, 往上依次称为水平2 、水平3。如村民是水平1单位,村是水平2单位, 县是水平3单位。
2、多水平数据的非独立性
(1)调查30个村,每个村调查100人的饮食情况,对于每个村内的村民而言,他们很可能有类似的饮食习惯(如都喜欢吃咸),从而可认为村内的村民之间并不是独立的。
(2)观察60人,每人观测5个时间点,了解他们的血压值情况,对于同一个人而言,在5个时间点的血压值应该是差不多的,不会有太大的波动,从而可认为每个人的不同时间的观测值并不是独立的。
3、多水平模型的不同叫法
多水平模型在不同领域有不同的称谓,如分层线性模型(Hierarchical Linear Model) 、混合效应模型(Mixed Effect Model) 、随机效应模型(Random Effect Model) 、随机系数模型(Random Coefficient Model) 、方差成
分模型(Variance Component Model) 等,其实表达的意思都差不多,都是处理多水平数据的模型。
3、多水平模型的思想
(1)多水平模型的思想要稍微复杂一些,因为它同时包含了多个水平的数据,从而在多个水平上都存在残差。总的来说,其思想就是把高水平上的差异估计出来(传统的线性模型不考虑这一差异,将其放到了残差中),这就使得残差变小,估计的结果更为可靠。
(2)虽然理论上多水平模型可以有多个层次,但实际中最常用的是二水平模型。
4、一个例子-二水平模型
下表是12名儿童在30 、36 、42 、48个月时认知能力得分的测量结果(认知能力得分),目的是想了解年龄对认知能力得分是否有影响。(只标注出一部分)
该数据是一份二水平数据,其中儿童个体为水平2单位,测量的时间点为水平1单位。
如果用常规的线性模型拟合,就是将所有的48个数据建立线性模型。
(1)这个模型是将12名儿童的数据合起来建立的,因此有时也称合并模型(Pooled Model)。
它暗含了一个假定条件:12 名儿童的认知能力得分随年龄变化的截距和斜率都是相同的,而实际上却未必如此。(类似于4个社区SO2的统计结果)
(2)12 名儿童的认知能力得分随年龄的变化情况,可以看出,有的是随年龄增长,有的则是随年龄降低;即使在增长的儿童中,其增长速度也各不相同,有的增长快,有的增长慢。
(3)也就是说,每个人(水平2单位)的认知能力得分随年龄的变化可能有不同的截距和斜率,而传统线性模型则忽略了水平2单位上的差异。那么,既然它没有考虑到水平2单位上的差异,而水平2单位又确实存在差异,那这一差异去哪儿了呢?被线性模型归到误差中去了,
从而导致误差增大。
(4)怎样找出这种差异呢?
很自然的一个想法是利用虚拟变量回归,将12 名儿童的认知能力得分随年龄变化的截距差异和斜率差异估计出来,这样就可以反映出水平2 单位之间的差异,这种方法一般称为固定效应模型(Fixed Effect Model)。
但是固定效应模型有一个问题: 12名儿童就需要估计11个虚拟变量,当水平2单位更多的时候(如120名儿童),需要估计的参数太多,用虚拟变量就会消耗太多的自由度,估计结果不可靠,而且也没什么实际意义。因为我们并不关注具体谁和谁之间的差异有多大,我们只要知道这些儿童之间总的有多大差异就行了。这时候用固定效应模型就不大合适,而应采用随机效应模型(Random Effect Model), 也就是多水平模型。
(5)多水平模型
多水平模型是把水平2单位看作从一个更大的总体中随机抽样的个体,个体之间的差异是服从某种特定分布(如正态分布)的随机变动。这样,我们只要把这种分布的均数和方差估计出来,就可以反映出这些水平2 单位围绕均值的波动大小(变异大小)。不管是12人还是1200人,都只需要一个均值和方差便可以描述其变异大小。
5、多水平模型的分类
多水平模型根据实际情况一般可分为两大类:随机截距模型和随机斜率模型。
(1)随机截距模型
这种模型假定水平2 单位之间仅截距不同,斜率是相同的。如下图12名儿童的认知能力得分随年龄变化的斜率都相同,但截距不同。
(2)随机斜率模型
这种模型假定水平2 单位之间不仅截距不同,而且斜率也不同。下图12 名儿童的认知能力得分随年龄变化的截距和斜率都不同。
上述两类模型不做具体分析,只把握其思想,后续具体问题具体分析。