重复测量数据建模与ICC
我们以儿童的生长发育为例,对ICC在重复测量数据中的作用进行解释。
例如我们重复随访了1500个儿童在分娩时、1岁、2岁的体重,进而分析儿童体重随年龄的变化趋势,则可以建立以下两水平模型:
$y_{ij}=\beta_{0}+Z_j+\beta_1 age+\varepsilon_{ij}$
水平j:代表1500个儿童,
水平ij: 代表第j个儿童的第i次测量值
其中,$Z_j \sim N(0,\sigma^2_b),\varepsilon_{ij}\sim N(0,\sigma^2_e)$分别代表儿童水平和同一儿童不同年龄水平的随机效应。
此时,同一个儿童在不同年龄阶段体重的相关可以通过层内相关系数进行衡量:
$corr(y_{ij},y_{ij+1})=\frac{\sigma2_b}{\sigma2_b+\sigma^2_e}=\rho$
此时,总的方差为:$var(y_{ij})=\sigma2_b+\sigma2_e$,为常量,不随时间的变化而变化。
ICC如何解释
ICC接近0
在零模型中,ICC代表的不是预测变量之间的关联性,而是反映模型中残差之间的关联性。
ICC非常接近0,此时,$\sigma^2_b$非常小,表示同一儿童不同时间点之间的体重测量数据变异非常大,而不同儿童体重之间的变异则相对较小。
ICC接近1
当ICC非常接近1时,$\sigma^2_e$非常小,则表明同一儿童不同时间点之间的体重测量数据变异相对较小,而不同儿童之间的变异则相对较大。
当ICC非常小时(一般为ICC<0.1),我们是否可以忽视每个儿童不同年龄阶段体重的关联性呢?
很遗憾,答案是不能。即使是ICC非常小时,我们仍然不能忽视同一儿童不同年龄阶段体重之间的关联性,因为即使这一关联性非常小,我们的统计推断结果仍然会受到影响。目前统计学家们仍然不推荐把ICC作为决定是否处理层次效应的依据。
层次效应推断的推荐方法之一
我们可以依据传统的统计模型选择方法对层次效应进行统计推断。通过构建层次模型与一般线性模型之间拟合效果比较的似然比检验(零假设:一般线性模型与层次模型具有同等的拟合效果),一个较高的似然比卡方值和一个较低的P值预示多水平模型的拟合效果优于一般线性模型的拟合效果。