多元线性回归
一、原理:
多元线性回归分析就是研究一个因变量和多个自变量之间的关系。公式如下:
ŷ=a+b1x1+ b2x2。x1和x2为两个自变量,y为因变量。
二、要素:
1、因变量:必须为连续型变量
2、自变量:可为多个变量
3、方法:应用最多的为逐步法(stepwise),即对自变量按照一定的纳入和排除标准反复进行引入、剔除过程,直到没有变量被引入,也没有变量被剔除为止。
该回归方法与logistics回归分析和Cox回归分析最显著的区别就是,其因变量(y)是连续变量。举例:你可以使用该回归去研究哪些因素可以影响肿瘤的大小(连续变量),但不能使用该回归去研究那些因素可以影响老年人的是否患高血压病(分类变量)。
logistics回归分析
一、原理
多元回归分析研究一个正太随机因变量Y与一组自变量X(x1,x2,x3,...,xp)的数量关系,但我们经常遇到因变量为二分类变量的情况,如发病与否、死亡与否等。需要研究该分类变量与一组自变量之间的关系,则采用二分类Logistic回归,又称非条件Logistic回归。
Logistic回归是一种概率分析,即分析当暴露因素为x时,个体发生某事件(y)的概率的大小。Logistic的方程式为y=β0+β1X1+β2X2+…βmXm。β1,β2…βm称为回归系数,反映了在其他变量固定后,x=1与x=0相比发生y事件的概率。OR越大,发生结果的可能性越大
二、要素:
1、因变量:一个二分类因变量
2、协变量:所有的自变量
3、方法:自变量少时采用进入法(enter),自变量太多时,选用前进法(forward)中的偏似然比(LR),前进LR相当于多元线性回归中的逐步回归
三、重点:
1、Logistic回归分析对样本量是有一定要求的。简单的估算方法:样本量为自变量个数的10倍。例如有5个自变量(x1、x2、x3、x4、x5),则值少要有50个患者数据。
2、因变量(y)是分类变量
3、不允许有数据删失
Cox回归分析
一、原理:
Logistic回归分析只考虑了终点事件的出现与否,但恶性肿瘤等随访研究中,还需要考虑观察对象达到终点所经历的时间长短。
生存分析就是将终点事件的出现与否和达到终点所经历的时间长短结合起来分析的一类统计分析方法。其包含的具体统计过程如下:
l、寿命表 用于分析分组生存资料,求出不同组段的生存率。或者当样本量较大时(如n> 50) ,可以把资料按不同时间段分成几组,观察不同时间点的生存率。
2、Kaplan-Meier 用于样本含量较小时,不能给出特定时间点的生存率,这样就不用担心每个时间段内只有很少的几个观测,甚至没有观测的尴尬局面。 单因素生存曲线比较(Kaplan-Meier 法)采用乘积极限法( Product-limit estimates) 来估计生存率,同时还可以对一个影响因素进行检验。它适用于以个体为单位收集信息的精确生存时间的生存资料,是最为基本的一种生存分析方法。
3、Cox 回归 用于拟合Cox 比例风险模型,这是生存分析中最重要的一种分析方法,它的出现具有划时代的意义,是多因素分析方法中最为常用的一种。
4、Cox 依时协变量 是Cox 比例模型的进一步发展。当所研究的危险因素其取值随时间而不断变化,或者其作用强度随时间而不断变化时,Cox 模型的适用条件被违反, 此时需要对模型加以修正,就必须用到这个过程。举一个典型的例子,临床试验随访资料中经常碰到某研究对象从安慰剂组退出,跳转至治疗组的资料就应当用此过程来分析。
K-M法只能研究一个因素对生存时间的影响,当对生存时间的影响因素有多个时便无能为力,而Cox比例风险模型则可以估计多个研究因素对风险率的影响,该过程称为Cox回归(Cox regression)
二、要素:
1、因变量:生存时间
2、协变量:所有的自变量
3、方法:一般采用前进条件法(forward_LR)相当于多元线性回归中的逐步回归法
4、允许数据删失:即截尾数据。产生截尾的原因一般为患者失访、患者生存期超过了研究的终止期;但截尾数据的价值在于提供了观察期间的信息,生存时间不会短于观察时间。截尾数据常在其右上角标记“+”
三、结果解读:
B:回归系数估计值
SE:回归系数的标准误
Exp(B):相对危险度RR值
y是生存时间;举例:年龄、性别、分级、分期、geneA的表达量,那些是影响肿瘤患者生存时间的因素