转自个人微信公粽号【易学统计】的统计学习笔记:R语言:广义估计方程(GEE)
01 解决何种问题
在临床研究中,经常会比较两种治疗方式对患者结局的影响,并且多次测量结局。例如为了研究两种降血糖药对血糖的控制结果是否存在差异,研究者会在两组人群服药后不同的时间点记录血糖值,然后评价降血糖结果。
为评价抗癫痫药物的作用,观察并记录两组不同用药的人群在8周内,每2周发病的次数,分析该药物是否有抑制癫痫发作的作用。
另外,有的研究只收集一个时间点的数据,但一个研究者会提供多个部位的数据点,例如研究者想评价冠心病患者在冠脉搭桥术后应用阿司匹林是否能有效降低患者血管再堵塞的风险,而一个患者可能在同一次手术中对多条冠脉动脉进行搭桥。
这类数据存在相关性,不满足线性模型和广义线性模型所要求的的独立性,且计数类数据,不满足正态性,怎么办?
02 方法说明
广义估计方程GEE是在传统的模型基础上对相关性数据做了校正,可以拟合Logistic回归、泊松回归、一般线性回归等回归模型。专门用于处理这种重复测量资料且非独立,不同于重复测量方差分析(要求结局变量为连续性数据且满足球形假设检验),既可以处理连续性结局变量也可以处理分类型结局变量,其利用连接函数将多种分布的因变量拟合为相应的统计模型。
该模型的一个重要概念是作业相关矩阵,表示因变量的各次重复测量值两两之间的相关性的大小,常用Ri(a)表示,是个t*t维的对角阵,t是总测量次数,其第s行t列的元素表示,Yis和Yit的相关,近似的表示个体之间平均的相关。常见的形式有这几种,独立,等相关,相邻相关,自相关和不确定相关。
其中独立是指同一患者贡献的各数据点数据彼此独立,无相关性。等相关是各数据点的相关性均相等,相邻相关是仅临近的M+1个数据有相关,自相关是用于不同时间点的数据,相邻时间点相关性最大,时间间隔越大相关性越小,不确定相关是不限定相关结构,由数据本身决定。
GEE模型估计涉及到的数学原理比较复杂,读者可参考相关文献。下面讲述GEE在R中的操作。
首先我们以第三个案例作为例子,讲解在R中的操作:
03 加载数据
表中变量的含义:
04 R代码
library(gee)
dt <- read.csv('C:\\GEE.csv',stringsAsFactors = F)
fit <- gee(Outcome~Treatment+Sex,id=id,data=dt,corstr = 'exchangeable',family = 'binomial')
summary(fit)
##返回结果
##Model:
## Link: Logit
## Variance to Mean Relation: Binomial
## Correlation Structure: Exchangeable
##Call:
##gee(formula = Outcome ~ Treatment + Sex, id = id, data = dt,
## family = "binomial", corstr = "exchangeable")
##Summary of Residuals:
## Min 1Q Median 3Q Max
##-0.7573351 -0.4696669 0.2426649 0.4005292 0.5759983
##
##Coefficients:
## Estimate Naive S.E. Naive z Robust S.E. Robust z
##(Intercept) 1.1381242 0.5546159 2.0520945 0.3807494 2.9891690
##Treatment -1.0767769 0.5992072 -1.7970025 0.5388111 -1.9984310
##Sex -0.3677144 0.5885404 -0.6247904 0.5868946 -0.6265424
##
##Estimated Scale Parameter: 1.089952
##Number of Iterations: 2
##
##Working Correlation
## [,1] [,2] [,3]
##[1,] 1.0000000 -0.1617976 -0.1617976
##[2,] -0.1617976 1.0000000 -0.1617976
##[3,] -0.1617976 -0.1617976 1.0000000
05结果解读
1.R中加载gee包,用该包中的gee()函数建模。
2.该数据集有39个观测值,每名患者贡献的数据量不一致,2号患者对两根血管进行搭桥手术,1号患者只对一根血管行搭桥手术。
3.gee()构建模型的写法跟之前线性回归的写法是一样的,需要注意的是id用来设置数据集的标识变量,即观测个体,这里表示每个患者。corstr参数是指数据的相关结构,这里设置的是等相关,还可以设置其他类型。
4.返回的结果中#model是采用logit转换,对应的二分类。#coefficients表示系数估计,其结果解释和LR回归一致。Treatment的系数是-1.077,exp(B)为0.314,即OR值,说明术后使用阿司匹林的患者发生血管再堵塞的风险是使用安慰剂组的0.314倍,具有统计学意义,阿司匹林具有保护作用。而纳入性别变量的校正OR值是0.692。#working correlation是作业相关矩阵,对角线上都是1,因为选的是等相关,除了对角线上,其他相关系数都是-0.162。
再以一个结局为连续变量的案例作为例子,讲解在R中的操作。
06R代码
library(gee)
head(warpbreaks)
## breaks wool tension
##1 26 A L
##2 30 A L
##3 54 A L
##4 25 A L
##5 70 A L
##6 52 A L
table(warpbreaks$wool,warpbreaks$tension)
## L M H
## A 9 9 9
## B 9 9 9
##等相关
summary(gee(breaks~tension,id=wool,data=warpbreaks,corstr = 'exchangeable'))
#自相关
summary(gee(breaks~tension,id=wool,data=warpbreaks,corstr = 'AR-M',Mv=1))
##返回结果1
##Model:
## Link: Identity
## Variance to Mean Relation: Gaussian
## Correlation Structure: Exchangeable
## coefficients:
## Estimate Naive S.E. Naive z Robust S.E. Robust z
##(Intercept) 36.38889 3.069434 11.855246 5.774705 6.301428
##tensionM -10.00000 3.910008 -2.557539 7.463905 -1.339781
##tensionH -14.72222 3.910008 -3.765266 3.731952 -3.94491
##返回结果2
##Model:
## Link: Identity
## Variance to Mean Relation: Gaussian
## Correlation Structure: AR-M , M = 1
#Coefficients:
## Estimate Naive S.E. Naive z Robust S.E. Robust z
##(Intercept) 36.41361 2.889306 12.602890 5.788146 6.291065
##tensionM -10.09043 4.077388 -2.474730 7.513413 -1.342989
##tensionH -14.72471 4.086060 -3.603646 3.758972 -3.917218
07 结果解读
1.table()函数观察数据集的基本结构,该数据集是R包中自带数据集。观察两种羊毛A和B分别在三种不同强度下,即L,M,H,对应低中高三种韧度,在纺织中崩断的次数(breaks)。每种羊毛有27个观测值,共计54个观测。
2.gee()构建模型的写法跟之前线性回归的写法是一样的,需要注意的是id用来设置数据集的标识变量,即观测个体,这里表示每种羊毛。corstr参数同上。
3.返回的结果1中#model是Identity表示原始数据没有进行任何转化,拟合线性回归模型。#coefficients表示系数估计,其结果解释和Lm回归一致,tensionM的系数是-10,相对于强度低L的羊毛,强度M要少断10次,tensionH的系数是-14.7,相对于强度低L的羊毛,强度H要少断14.7次。
4.返回的结果2是改变数据相关结构类型为自相关MR,此时一定要设置Mv参数,设置为1,对模型进行估计,可看到系数结果和等相关基本一致。
08总结
GEE具有非常好的特性,既能处理连续型结局变量,又能处理分类型结局变量。它的优势在于:
1.建模稳定,即使设置的数据相关结构与实际有偏差,但在样本量足够大的时候,其的参数估计仍然具有无偏性。其自变量的系数估计准确性论证高于多水平模型。
2.充分利用资料信息。对于多次重复测量的数据,充分利用每次测量结果,减少信息损失。
以上就是本次分享的内容了。后面还有更多高分统计方法分享,请持续关注哦~
如果您觉得有用,请点赞,转发哦~
更多统计小知识,请关看 公粽号 易学统计
更多阅读
R语言|两因素重复测量方差分析
R语言|基于Cox模型pec包深度验证
R语言|中位生存时间列线图绘制
R语言|Cox模型校准度曲线绘制
R语言|中位生存时间列线图绘制
基于Lasso回归筛选变量构建Cox模型并绘制Nomogram
R语言Logistic回归模型验证及Nomogram绘制
如何进行高维变量筛选和特征选择(一)?Lasso回归