在本期中,我将说明孟德尔随机化的基础概念与研究框架,并解释如何使用孟德尔随机化去解决常规流行病学问题。
2.1什么是孟德尔随机化?
孟德尔随机化是在非实验数据中使用遗传变异来估计暴露和结句之间的因果关系。在这里,我们使用“暴露”一词来指代假定的因果风险因素,有时也称为中间表型,它可以是生物标志物(Biomarker)、人体测量指标(Physical
measurement)或任何其他可能影响结果的风险因素(Risk
factor)。通常情况下,结局是疾病,但并不局限于疾病。非实验数据涵盖了所有观察性研究,包括横断面和纵向,队列研究和病例对照研究究。
2.1.1动机流行病学研究的基本目标是估计暴露对结局的影响
通常由于混淆,暴露与结果之间的观察联系有所不同,它们之间的相关性不能作为解释因果关系的可靠证据。例如,经常喝红酒的人心脏病的发病率较低,但社会经济状况是葡萄酒消费和改善冠状动脉健康的共同预测指标,因此可能是社会经济状况而非葡萄酒消费是心脏病风险的基础。与此同时,反向因果关系也可能产生观察联系,例如经常服用头痛药的人比没有服用头痛药的人头痛的可能性更大,但服用头痛药不大可能是头痛发生率增加的原因。孟德尔随机化的想法是找到与暴露有关的遗传变异(或多个变异),但与影响结果的任何其他风险因素无关,并且与结果不直接相关。这意味着遗传变异与结果之间的任何关联都必须通过变异与暴露之间的关联来进行,因此暗示了暴露对结果的因果关系,这样的遗传变异将满足工具变量(IV)的假设。
2.1.2工具变量
孟德尔随机化的定义是“使用遗传变异进行工具变量分析”。在孟德尔随机中,遗传变异被用作工具变量评估暴露对结局的因果效应,遗传变异满足工具变量的基本条件总结为:
(1) 遗传变异与暴露有关。
(2) 该遗传变异与暴露-结果关联的任何混杂因素均不相关。
(3) 该遗传变异不会影响结果,除非可能通过与暴露的关联来实现。
尽管孟德尔随机化分析通常涉及单个遗传变异,但可以将多个变异用作单独的IV或组合为单个IV。关于IV假设的更多细节,这是孟德尔随机研究有效性的关键,我将会在后续的内容中进行讲解。
2.1.3混杂和内生性
在观察性研究中,暴露与结果之间可能存在相关性的原因之一是混杂因素的影响,即暴露的内生性。混杂被定义为暴露水平不同的群体之间存在固有差异,通常认为它是由人口中特定变量的分布(称为混杂因素)导致的。混杂因素是变量,是导致暴露和结果的共同原因。当进行多元回归分析时,由于存在未知或无法衡量的混杂因素或测量的混杂因素的不精确性,暴露和结果之间通常是因果效应的有偏估计。在分析中未经矫正的混杂称为“残留混杂”,而内生性意味着回归模型中的回归变量和误差项之间存在相关性。虽然在流行病学中很少使用“外生的”和“内生的”这两个词,但是这些术语具有严格的定义,可用于理解混杂。内生性的字面意思是“来自内部”,内源性的反面是外源性的;回归模型的外部变量“来自外部”。术语“内生性”包括混杂,但也包括传统上认为与混杂分离的现象,例如测量误差和反向因果关系。如果模型中的暴露是回归模型中的内源性变量,则因暴露对结局的因果效应将会有偏差。
IV可以理解为与内源性暴露相关的外生变量,用于估计在保持所有其他因素相同的情况下改变暴露的因果效应。孟德尔随机化也被称为“孟德尔解混杂”,因为它旨在给出因果关系的估计,而不会因混杂因素而产生偏差。危险因素之间的相关性使得在观察性研究中无法观察一个变量的增加,而使所有其他变量保持相等,因为一个因素的变化将始终伴随着其他因素的变化。尽管我们可以测量单个混杂因素并在分析中对其进行调整,但我们永远无法确定是否已精确识别或测量了所有混杂因素,从而导致残留混杂。另外,如果我们调整一个变量,该变量位于感兴趣的暴露和结果之间的真正因果关系路径上(一个中介),则这表示过度调整并削弱了因果效应的估计值。通过找到满足IV假设的遗传变异,我们可以估计暴露与结果之间的无混杂因素的关联。
2.1.4随机对照试验的类比
孟德尔随机化类似于随机对照试验(RCT),而被认为是提供医学证据“黄金标准”的RCT,涉及将一组个体以随机方式分为两个或多个亚组,这些亚组分别接受不同的治疗。与所有其他分配给子组相比,随机化更为可取,因为所有可能的混杂因素(已知和未知)平均在子组之间保持平衡。在孟德尔随机化中,我们使用遗传变异来形成与RCT中相似的亚组,如图所示。
从前述的IV假设来看,这些亚组在暴露因素中存在明显差异,但除了因果关系“下游”的那些因素外,没有其他任何因素有差异,故这些亚组之间结局的差异将表明暴露对结局的因果关系。一个人的遗传变异是从其父母那里继承的,因此不会随机分配。例如,如果一个人的父母都不携带特定的基因突变,则该人将无法携带该突变。但是,在现实的条件下,可以将人口中遗传变异的分布视为可能是重要混杂因素的环境和社会因素的随机分布,要使变体随机分布的必要假设是随机交配,并且缺乏与目标变体相关的选择效应。尽管这些假设会有所不同,但研究表明,大多数遗传变异在整个人群中的分布相当均匀,至少在西欧的情况下如此。我们可以通过进行哈迪-温伯格平衡检验来评估是否有可能偏离遗传变异的随机交配假设,以判断种群中杂合子和纯合子的频率是否符合期望。尽管分配中没有真正的随机性,但仍将其该种分配成为准随机化。大多数自然实验都依赖于准随机化,而不是实验单元的严格随机化。最近的一项观察性研究表明,线性回归在所有96个非遗传变量之间构成的4560个关联中,有45%的p值小于0.01。这为以下假设提供了合理性:用作工具变量的遗传变异将独立于许多潜在的混杂因素,因此在许多情况下,分配给遗传亚组可被视为类似于RCT中的随机分配。但是,孟德尔随机化从另一个方面与随机试验不同。孟德尔随机化的目的不是估计遗传效应的大小,而是估计暴露对结果的因果效应,所以与遗传变异相关的结局的平均变化幅度可能与干预措施导致的变化幅度不同。另外,即使遗传变异与结果之间的关联程度很小,暴露的人群归因风险也不一定很低,因为暴露可能会以比遗传变异解释更大的变化程度。例如,他汀类药物对低密度脂蛋白胆固醇水平的影响比低密度脂蛋白胆固醇水平与HMGCR基因变异的关联要大几倍,因此对后续结果的影响更大。
2.2为什么要使用孟德尔随机化?
尽管使用孟德尔随机化的主要原因是为了避免残留混杂问题,但在特定情况下使用孟德尔随机化还有其他原因:病例对照数据和难以衡量的暴露水平。
2.2.1反向因果关系和病例对照研究
当暴露与结果之间的关联不是由于暴露导致结果变化,而是由于结果导致暴露变化时,则发生反向因果关系。如果暴露是对临床前疾病的响应而增加的,则可能发生这种情况,比如在冠心病可在临床表现之前因动脉粥样硬化而暴露。由于个体的基因型是在受孕时确定的,因此无法更改,因此不会存在因果关系与基因型相关联的反向因果关系,这也是孟德尔随机化的优势。在某些情况下,也就是在已经经历过结果事件的个人中,许多感兴趣的风险无法可靠地衡量,因为该事件可能会使衡量结果失真。在这种情况下,可以将遗传变异用作暴露的代理,并且可以追溯评估与结果的遗传关联。由于可以在患病的个体中测量个体的基因型,因此可以在病例对照的情况下使用孟德尔随机化获得因果推论。
2.2.2昂贵或难以衡量的暴露
当感兴趣的曝光量昂贵或难以测量时,孟德尔随机化可能是一种有用的技术。例如,用于生物标记物(例如水溶性维生素)的金标准测定可能花费太多,以至于无法用于大样本,或者测量需要隔夜禁食的空腹血糖可能是不切实际的。如果遗传变异与暴露相关(可以在子样本或单独的数据集中进行验证)并且是有效的暴露IV,则可以通过遗传变异与遗传之间的关联来推断暴露与结果之间的因果关系。即使没有测量暴露量也可以得出结果。此外,工具变量估计值不会因暴露中的经典测量误差(包括个体内部差异)而衰减。这与观察性研究相反,在观察性研究中,暴露中的测量误差通常会导致回归系数朝着零值的方向衰减(称为回归稀释偏差)。另一个例子是,危险因素不仅难以度量,而且难以定义。例如,IL6R基因区域的一个变异与血清白介素6浓度(以及下游炎症标记物的水平,包括C反应蛋白和纤维蛋白原)有关,被证明与冠心病(CHD)风险有关。但是,从对遗传变异功能的了解中,我们认为所评估的因果作用不是通过升高的血清白介素6浓度来实现的,而是通过白介素6受体途径中信号传导的改变来实现的,而这是一种随时间变化的细胞表型,因此对个体的代表性测量值并不容易确定。但是,由于可以测量遗传变异,因此可以通过孟德尔随机评估来评估白介素6受体相关途径对冠心病风险的因果作用。