GLMMs及其实现

山中何事?
松花酿酒,
春水煎茶。

面对日益复杂的数据,线性模型正处于一个蹙迫的境地,如大量的离散型随机变量的响应变量问题——大量的计数资料类型、重复测量资料的数据处理。面对这些离散型、非独立的数据,我们既无法直接采用限于连续型数据的线性混合模型,又不能直接运用基于独立性假定的广义线性模型,而这些实际需求催生了广义线性混合模型(generalized linear mixed models, GLMMs)。

目前GLMMs尚未普及运用,报道相关文献较为艰涩难懂,结合笔者目前工作内容,总结摸索如下。

广义

离散分布:二点分布、二项分布、Poisson分布、负二项分布
连续分布:正态分布、Beta分布、Gamma分布、卡方分布

混合效应

该模型基本形式: y = Xβ + Zu + ε
y 是因变量的观测变量,X 是协变量的设计矩阵(已知),β是未知回归系数向量(非随机),为固定效应。Z 是已知矩阵,u 是随机效应向量,ε 是随机误差向量,u 与 ε 相互独立,无法观测。
不失一般性,总假定 u 和 ε 的期望均为 0,事实上,若即 μ = E(u),注意到 ZU= Zμ + Z(U - μ),故可将 u 中心化,而将其期望归并到固定效应部分。

该模型最大的优势在于可将某些分组变量作为随机效应进行模型拟合。将全部分组因素作为固定效应进行模型拟合是,可能造成模型的过离散(类似于广义线性模型),而将部分固定效应提取出来作为随机效应再进行拟合,往往可以消除过离散,从而得到更加准确的参数估计。需要注意的是,固定效应和随机效应并不是随意界定的,要根据试验设计的具体内容,有理有据地进行效应分类。

在运用上,GLMMs可通过SPSS、R以及SAS中的GLIMMIX过程实现。SPSS中的GLIMMIX过程人机交互界面十分友好,但时长面临卡死的风险,且运算时间过长,不太适合较大量较复杂数据的处理,笔者尝试采用的是SAS中的“The Glimmix”过程实现建模。

SAS中的实现

打开数据

proc import datafile = "F:\Toxicology Institute\MARCHS\XXX.sav" out= work1;
run;

相应变量分布检验

proc univariate data=work1; 
var y; 
 histogram y / gamma;
run;

GLMMs 中离散变量可为binomial、binary、Poisson、negative binomial 分布,连续变量可为Gaussian、beta、gamma分布(卡方分布为gamma分布的一个特例)。连续变量默认Gaussian分布,离散变量默认为binary分布,连接函数默认为logit。

The Glimmix 过程

离散变量

proc glimmix data=work1;
   t = year-2012;
   class year smoking(ref=first) friedfood(ref=first) bakedfood(ref=first) alcoholgroup(ref=first) greentea(ref=first) cola(ref=first)  coffee(ref=first) milktea(ref=first);
   model y=year age abs bmi smoking friedfood bakedfood alcoholgroup cola coffee milktea greentea  /s dist=binary cl ddfm=kr;
   random intercept t / subject=ID;
run;

该数据来自一个,自2013年起随访三年的,队列研究,我们认为存在的随机效应来自重复测量 t 与个体差异 ID。值得注意的是,在不存在随机效应时,可采用广义线性模型(GLM)拟合,如过随机效应仅来自重复测量,亦可采用广义线性模型(GLM),即采用SAS中的 The Glm 过程(利用 repeat 语句)。

上述语句中,值得注意的,“class”标注的为分组变量,“model”中的均为考虑到的固定效应,“dist”为分布,“cl”为显示固定效应的解,“ddfm”为自由度计算方法,“random”中为截距、重复测量 t 以及个体差异 ID。

模型的拟合统计量一般用 “广义卡方/自由度”与“1”的比较。
还是须尊崇多变量分析的逐步纳入,向后消去等等纳入排除变量标准,调整模型中的变量,注意样本量少是变量数的十倍。

至此,对GLMMs模型有了一个初步了解,在随机效应的设计上与建模的选项上尚有空间。不能忘记的是,建模结果的生物学意义。人群资料研究的论证强度还是基于科学的生物学解释的。

参考文献

· SAS/STAT 14.1 User's Guide
· 《SAS语言基础于高级编程技术》
· 《线性和广义线性混合模型及其统计诊断》
· 《发现数据之美》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容