R语言：广义估计方程(GEE)

转自个人微信公粽号【易学统计】的统计学习笔记：R语言：广义估计方程(GEE)

01 解决何种问题

在临床研究中，经常会比较两种治疗方式对患者结局的影响，并且多次测量结局。例如为了研究两种降血糖药对血糖的控制结果是否存在差异，研究者会在两组人群服药后不同的时间点记录血糖值，然后评价降血糖结果。

为评价抗癫痫药物的作用，观察并记录两组不同用药的人群在8周内，每2周发病的次数，分析该药物是否有抑制癫痫发作的作用。

另外，有的研究只收集一个时间点的数据，但一个研究者会提供多个部位的数据点，例如研究者想评价冠心病患者在冠脉搭桥术后应用阿司匹林是否能有效降低患者血管再堵塞的风险，而一个患者可能在同一次手术中对多条冠脉动脉进行搭桥。

这类数据存在相关性，不满足线性模型和广义线性模型所要求的的独立性，且计数类数据，不满足正态性，怎么办？

02 方法说明

广义估计方程GEE是在传统的模型基础上对相关性数据做了校正，可以拟合Logistic回归、泊松回归、一般线性回归等回归模型。专门用于处理这种重复测量资料且非独立，不同于重复测量方差分析(要求结局变量为连续性数据且满足球形假设检验)，既可以处理连续性结局变量也可以处理分类型结局变量，其利用连接函数将多种分布的因变量拟合为相应的统计模型。

该模型的一个重要概念是作业相关矩阵，表示因变量的各次重复测量值两两之间的相关性的大小，常用Ri(a)表示，是个t*t维的对角阵，t是总测量次数，其第s行t列的元素表示，Yis和Yit的相关，近似的表示个体之间平均的相关。常见的形式有这几种，独立，等相关，相邻相关，自相关和不确定相关。

其中独立是指同一患者贡献的各数据点数据彼此独立，无相关性。等相关是各数据点的相关性均相等，相邻相关是仅临近的M+1个数据有相关，自相关是用于不同时间点的数据，相邻时间点相关性最大，时间间隔越大相关性越小，不确定相关是不限定相关结构，由数据本身决定。

GEE模型估计涉及到的数学原理比较复杂，读者可参考相关文献。下面讲述GEE在R中的操作。

首先我们以第三个案例作为例子，讲解在R中的操作：

03 加载数据

数据1.png

表中变量的含义：

变量赋值.png

04 R代码

library(gee)
dt <- read.csv('C:\\GEE.csv',stringsAsFactors = F)
fit <- gee(Outcome~Treatment+Sex,id=id,data=dt,corstr = 'exchangeable',family = 'binomial')
summary(fit)

##返回结果
##Model:
## Link:                      Logit 
## Variance to Mean Relation: Binomial 
## Correlation Structure:     Exchangeable

##Call:
##gee(formula = Outcome ~ Treatment + Sex, id = id, data = dt, 
##    family = "binomial", corstr = "exchangeable")
##Summary of Residuals:
##       Min         1Q     Median         3Q        Max 
##-0.7573351 -0.4696669  0.2426649  0.4005292  0.5759983 
##
##Coefficients:
##               Estimate Naive S.E.    Naive z Robust S.E.   Robust z
##(Intercept)   1.1381242  0.5546159  2.0520945   0.3807494  2.9891690
##Treatment    -1.0767769  0.5992072 -1.7970025   0.5388111 -1.9984310
##Sex          -0.3677144  0.5885404 -0.6247904   0.5868946 -0.6265424
##
##Estimated Scale Parameter:  1.089952
##Number of Iterations:  2
##
##Working Correlation
##           [,1]       [,2]       [,3]
##[1,]  1.0000000 -0.1617976 -0.1617976
##[2,] -0.1617976  1.0000000 -0.1617976
##[3,] -0.1617976 -0.1617976  1.0000000

05结果解读

1.R中加载gee包，用该包中的gee()函数建模。
2.该数据集有39个观测值，每名患者贡献的数据量不一致，2号患者对两根血管进行搭桥手术，1号患者只对一根血管行搭桥手术。
3.gee()构建模型的写法跟之前线性回归的写法是一样的，需要注意的是id用来设置数据集的标识变量，即观测个体，这里表示每个患者。corstr参数是指数据的相关结构，这里设置的是等相关，还可以设置其他类型。
4.返回的结果中#model是采用logit转换，对应的二分类。#coefficients表示系数估计，其结果解释和LR回归一致。Treatment的系数是-1.077，exp(B)为0.314，即OR值，说明术后使用阿司匹林的患者发生血管再堵塞的风险是使用安慰剂组的0.314倍，具有统计学意义，阿司匹林具有保护作用。而纳入性别变量的校正OR值是0.692。#working correlation是作业相关矩阵，对角线上都是1，因为选的是等相关，除了对角线上，其他相关系数都是-0.162。

再以一个结局为连续变量的案例作为例子，讲解在R中的操作。

06R代码

library(gee)
head(warpbreaks)
## breaks wool tension
##1     26    A       L
##2     30    A       L
##3     54    A       L
##4     25    A       L
##5     70    A       L
##6     52    A       L
table(warpbreaks$wool,warpbreaks$tension)
##   L M H
## A 9 9 9
## B 9 9 9
##等相关
summary(gee(breaks~tension,id=wool,data=warpbreaks,corstr = 'exchangeable'))
#自相关
summary(gee(breaks~tension,id=wool,data=warpbreaks,corstr = 'AR-M',Mv=1))

##返回结果1
##Model:
## Link:                      Identity 
## Variance to Mean Relation: Gaussian 
## Correlation Structure:     Exchangeable 
 
## coefficients:
##             Estimate Naive S.E.   Naive z Robust S.E.  Robust z
##(Intercept)  36.38889   3.069434 11.855246    5.774705  6.301428
##tensionM    -10.00000   3.910008 -2.557539    7.463905 -1.339781
##tensionH    -14.72222   3.910008 -3.765266    3.731952 -3.94491

##返回结果2
##Model:
## Link:                      Identity 
## Variance to Mean Relation: Gaussian 
## Correlation Structure:     AR-M , M = 1
 
#Coefficients:
##             Estimate Naive S.E.   Naive z Robust S.E.  Robust z
##(Intercept)  36.41361   2.889306 12.602890    5.788146  6.291065
##tensionM    -10.09043   4.077388 -2.474730    7.513413 -1.342989
##tensionH    -14.72471   4.086060 -3.603646    3.758972 -3.917218

07 结果解读

1.table()函数观察数据集的基本结构，该数据集是R包中自带数据集。观察两种羊毛A和B分别在三种不同强度下，即L,M,H，对应低中高三种韧度，在纺织中崩断的次数(breaks)。每种羊毛有27个观测值，共计54个观测。
2.gee()构建模型的写法跟之前线性回归的写法是一样的，需要注意的是id用来设置数据集的标识变量，即观测个体，这里表示每种羊毛。corstr参数同上。
3.返回的结果1中#model是Identity表示原始数据没有进行任何转化，拟合线性回归模型。#coefficients表示系数估计，其结果解释和Lm回归一致，tensionM的系数是-10，相对于强度低L的羊毛，强度M要少断10次，tensionH的系数是-14.7，相对于强度低L的羊毛，强度H要少断14.7次。
4.返回的结果2是改变数据相关结构类型为自相关MR，此时一定要设置Mv参数，设置为1，对模型进行估计，可看到系数结果和等相关基本一致。

08总结

GEE具有非常好的特性，既能处理连续型结局变量，又能处理分类型结局变量。它的优势在于：

1.建模稳定，即使设置的数据相关结构与实际有偏差，但在样本量足够大的时候，其的参数估计仍然具有无偏性。其自变量的系数估计准确性论证高于多水平模型。
2.充分利用资料信息。对于多次重复测量的数据，充分利用每次测量结果，减少信息损失。
以上就是本次分享的内容了。后面还有更多高分统计方法分享，请持续关注哦~

如果您觉得有用，请点赞，转发哦~

更多统计小知识，请关看 公粽号易学统计

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343