我们在做统计分析时,常常都习惯了这样的分析套路:先进行统计描述,然后做单因素分析,最后再进行多因素分析。在阅读文献时,我们也会发现,不管是一般的统计描述还是单因素分析,往往能够支持研究人员作出结论的,还是要看最终的多因素分析结果。
在前期推送的内容中我们也讲过,多因素分析的目的是通过控制其它多个混杂因素的影响,找出具有独立作用的影响因素,并估计其效应大小。
既然这样的话,做单因素分析还有什么用呢,直接做多因素分析不就好啦?
多因素分析的地位固然重要,但是单因素分析也必不可少,单因素分析可以为多因素分析提供很多有效的信息,将单因素和多因素分析的结果进行比较,也能发现很多问题。如果单因素和多因素分析的结果一致的话,结论就比较稳定且容易解释,但是我们常常会遇到单因素和多因素分析的结果不一致,甚至是出现相互矛盾的尴尬情况,此时又该怎么办,该如何去解释呢?
今天我们就来一起聊一聊单因素分析和多因素分析之间的爱恨情仇。
首先我们根据单因素分析和多因素分析的结果对比,将可能出现的情况做一个四格表,如表1所示,分为A、B、C、D一共4种情况,下面我们分别对这四种情况进行讨论。
情况A
单因素分析和多因素分析的结果都显示无统计学显著性,****两者结果一致,均为阴性结果
在这种情况下,结果还是相对比较好解释的,一般基本上可以认为该因素对于结局事件来说,不是一个有意义的影响因素。
但是事情也并非这么简单,如果该因素作为一个混杂因素,在多因素分析中只是用来起到调整混杂作用的目的,那么虽然它在单因素和多因素分析中都是阴性结果,可能也不会太引起研究人员的重视;但是如果该因素是研究中所重点关注的一个因素,例如暴露/处理因素,此时单因素和多因素分析都得出阴性结果的话,就会让人感觉比较沮丧,不过也更值得我们好好去思考一下阴性结果背后的意义。
到底是该暴露/处理因素对结局事件真的没有影响,还是说因为其他原因而导致它的实际效应没有被显示出来?到底是研究设计的问题,还是指标定义的问题,亦或是统计方法的问题呢?都需要我们认真去查找一下原因,可以参考前期推送的有关介绍“阴性结果”的系列文章,或许可以帮助你寻找一下产生阴性结果的原因,开拓一下分析思路。
情况B
单因素分析结果显示无统计学显著性,****但多因素分析结果显示有统计学显著性
这种情况可能并不常见,主要是因为在单因素分析中没有统计学显著性的因素,按照一般的做法就不会再将此变量纳入到多因素分析中了,但其实上述做法小咖并不推荐,它是存在一定缺陷的。
我们在前期介绍《如何理解回归模型中的“调整”和“独立作用”》的内容中讲到,在单因素分析中,由于自变量之间存在一定的相互关联,自变量对因变量的影响反映的不仅仅单纯是它本身的作用,而是包含了该变量自身作用以及其他变量的混杂作用之后,呈现出来的一个综合的结果。而在多因素分析中,通过构建回归模型,调整了其他混杂因素的影响,从而才使该因素对因变量的真实效应显示出来。
因此不难理解,当某因素在单因素分析结果中无统计学显著性,而多因素分析结果有统计学显著性时,此时可能的原因是,该因素与其他混杂因素之间可能存在一定的关联,在单因素分析时,该因素的真实效应被其他混杂因素的作用所掩盖,通过多因素分析消除其他因素的影响后,才发现原来该因素对于结局事件来说是具有独立作用的。
举一个例子,例如某因素A是一个危险因素,而因素B是一个保护因素,由于具有因素A的个体,大部分人同时也具有因素B,因此在单因素分析中,因素A的作用并没有显现出来,这是因为因素A的危险作用被因素B的保护作用所掩盖了,无法体现因素A的实际效应。而通过多因素分析,将因素B的保护作用进行调整,从而暴露出因素A真实的危险作用。
情况C
单因素分析结果显示有统计学显著性,****但多因素分析结果显示无统计学显著性
想必大家都会经常遇见到这种情况,单因素分析时该因素有统计学显著性,然后就很兴奋地把它扔进多因素分析中,结果多因素分析结果却显示没有统计学显著性,感觉前功尽弃,很让人头痛,不知道是出了什么问题,到底该怎么办了。
我们仍然以前期推送的《传统单因素分析和单因素回归分析》一文中所引用的研究为例,如表2和表3所示。
表2. 研究对象基线特征
表3. 单因素和多因素Cox回归结果
文章中传统的单因素分析结果显示,Non-HDL-C平均水平在发生心血管疾病组要高于对照组,两组水平分别为124mg/dL和114mg/dL,差异有统计学显著性(P<0.01);
然后作者进行了单因素回归分析,其结果显示Non-HDL-C对于心血管疾病的发生是一个危险因素,HR=1.45,95%CI为1.11-1.88(P<0.01);
最后作者又进行了多因素回归分析,结果显示Non-HDL-C对于心血管疾病发生的影响消失了,没有统计学显著性,HR=1.77,95%CI为0.98-3.15(P:No Significance)。为什么会出现这样的情况呢?
如果你对情况B产生的原因已经理解,那么情况C也是同样的道理。在单因素分析中,自变量与因变量之间可能出现一定的假关联或者是间接的关联,例如某因素A对结局事件并无影响,而因素B对于结局事件是一个影响因素,但是由于因素A只是单纯的和因素B有强烈的相关性,两者存在共线性的现象,那么在单因素分析中,就可能出现因素A也存在显著差异的结果,从而导致因素A被误认为是一个影响因素而纳入到多因素分析中。
而在多因素分析中通过调整因素B的影响,因素A与因变量的“假关联”就消失了,此时可以认为因素A实际上对于结局事件并非是一个影响因素。就如同上述研究中的Non-HDL-C这个指标,在单因素分析中,它与心血管疾病的关联受到其它因素的影响,可能只是一种“假关联”,这种“假关联”在多因素分析中就很容易被调整而消失。
(注:针对Non-HDL-C这个指标,本文只从统计结果的角度将该研究作为例子进行讲解,不对Non-HDL-C作专业上的解释,具体意义需结合临床)
情况D
单因素分析和多因素分析的结果都显示统计学显著性,两者结果一致,均为阳性结果
这种情况应该是大家最愿意看到的情况吧,往往单因素和多因素分析都出现阳性结果,以此结果作出的结论还算是比较稳定可靠,可以放心地写文章投稿了,但前提是单因素和多因素分析的阳性结果的方向是一致的,比如单因素分析显示病例组某因素的水平显著高于对照组,多因素分析也显示该因素为危险因素,两者的结果都倾向于该因素对结局事件具有危险作用。
不过偶尔也会遇见这样的情况,虽然单因素和多因素分析都得出阳性结果,但是有时单因素分析显示为危险因素,而多因素分析显示为保护因素,或者单因素分析显示为保护因素,而多因素分析显示为危险因素,两者的结果是相互矛盾的。
出现这样的情况,其实和上述的情况B和C是同样的道理,这是在统计分析中经常出现的一个陷阱,统计学上称之为“辛普森悖论”(Simpson’s Paradox),是由英国统计学家E.H.Simpson于1951年提出。简单理解就是,在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦将两组数据合并考虑,却可能导致相反的结论。
我们今天讨论的单因素分析和多因素分析的结果出现不一致的情况,就是一个典型的“辛普森悖论”的例子。在单因素分析中,由于没有考虑到其他因素的影响,在一定情况下就会发生“辛普森悖论”,然而在多因素分析中,通过调整控制其他因素的影响,就可以解开“辛普森悖论”之谜,这也是一个很有意思的现象。有兴趣的小伙伴可以先查阅一下有关“辛普森悖论”的资料,我们将在以后的内容中向大家进行介绍。
参考文献
1. Atherosclerosis. 2011 Sep;218(1):163-7