Zhang Z, Ersoz E, Lai C-Q, et al. Mixed linear model approach adapted for genome-wide association studies. Nature Genetics, 2010, 42(4): 355–360. DOI: 10.1038/ng.546.
已证明混合线性模型(MLM)方法可用于控制全基因组关联研究中的群体结构和相关性。但是,基于MLM的方法对于大型数据集而言在计算上具有挑战性。我们报告了一种称为“压缩MLM”的压缩方法,它通过将个体聚类到组中来减少此类数据集的有效样本大小。我们还提出了一种补充方法,即“先前确定的群体参数”(P3D),它消除了重新计算方差分量的需要。我们将这两种方法独立地应用于人类,狗和玉米的选定遗传关联数据集中。这两种方法的联合实施显着减少了计算时间,并保持或提高了统计功效。我们使用模拟来证明在一系列物种和遗传结构的遗传关联数据集中控制亚结构的有用性。我们已经在TASSEL软件程序的实现中提供了这些方法。
尽管全基因组关联研究(GWAS)有可能确定人类疾病和农业重要性状的遗传多态性,但是虚假发现是一个主要问题1,并且部分归因于群体结构造成的虚假关联以及给定的个体之间的不相关性队列。最初使用基于通用线性模型(GLM)的方法(例如结构化关联2,基因组控制3和基于家族的关联测试4)来解决群体分层。 MLM方法的引入最近被证明是一种同时考虑个体结构和个体间不平等关系的改进方法。
在基于MLM的方法中,群体结构2,6适合作为固定效应,而个体之间的亲属关系被并入作为个体的随机效应的方差 - 协方差结构。无论采用何种统计方法,GWAS都需要大样本量才能获得足够的统计功效7,尤其是为了检测构成大多数复杂性状的小效应多态性8。对于MLM方法,具有这些大样本大小的数据集会产生沉重的计算负担,因为解决MLM的计算时间随着适合作为随机效应的个体数量的立方而增加。减少MLM中随机效应大小的最早努力可以追溯到动物育种中使用的父系模型方法9?2,它取代了个体的遗传效应与其父系的遗传效应。因此,父系模型方法需要谱系,这些谱系并不总是可用的,特别是在植物研究中通常不可用。即使有可用的谱系,也可以使用基于标记的亲缘关系,因为它具有更高的准确性13,14。计算时间进一步增加,因为需要迭代来估计每个测试标记的群体参数,例如方差分量15。尽管许多研究已经寻求提高迭代过程的速度,包括开发最近的有效混合模型关联(EMMA)算法16,但是解决大量个体和标记的MLM仍然是计算密集型的。为了解决这个问题,提出了一种基于两步策略的剩余方法17。第一步优化了减少的MLM,排除了遗传标记效应。在第二步中,将来自减少的MLM的残余拟合作为因变量以测试GLM中的每个标记。由于随机遗传效应不适合第二步,因此在测试标记时不需要迭代。这种残差方法可以比一步MLM快得多地执行,并且对所有未知参数进行全面优化,但是它具有与仅具有低遗传性的性状的完全优化方法相当的统计功效。我们在此提出在没有谱系信息的情况下减小随机遗传效应的大小的方法,并且消除迭代以重新估计每个标记的群体参数而不损害统计功效。我们表明,联合使用这两种方法可以大大减少计算时间并保持甚至提高统计功效。
具有标准MLM的GWAS的总计算时间是,其中m是标记的总数,p是解决MLM的迭代次数,n是评估的个体总数。进行具有大样本量的GWAS变得计算密集,因为每次迭代花费的时间量与随机效应中的个体数量的立方成比例15,18。减少这种计算负担的方法是减小随机效应的size。我们通过用少数群体s(s n)代替n个体来实现这一点,基于个体之间的亲缘关系聚类。因此,对于MLM的随机效应,成对的组之间的亲属关系取代了个体对之间的亲属关系。如果c = n / s是每组的平均个体数,下文称为压缩级,则该方法将计算时间减少c3倍。我们将此方法称为压缩,指的是如何将MLM中的随机效应从个体压缩到组。使用压缩的MLM称为压缩MLM。
因为在这种方法中,基于亲属关系估计将个体聚类成组,我们认为压缩的MLM是基于谱系的父系模型9?2的扩展,具有显着的进步。压缩MLM中使用的组可以根据从标记或谱系计算的亲缘关系进行聚类。此外,压缩MLM中的组数可以从n变化到1,而对于特定谱系,传统方法中的公牛数量是固定的。群体数量的这种灵活性允许群体平均值和群体数量的准确性得到优化,这是一种类似于选择每头公猪的公牛和后代数量以在育种计划中最大化遗传改良的方法19?1。优化群组数量的能力可以提高GWAS的统计功效。
压缩MLM跨越GLM和MLM之间的边界,因为GLM和MLM都可以被认为是压缩MLM的极端情况(图1)。当每个人被视为一个单独的组(即s = n)时,MLM等同于压缩的MLM,而当所有个体都在一个组中时,GLM等同于压缩的MLM(s = 1)。后者使随机效应具有单个级别,从而防止随机效应和残差方差分量的单独估计。另外,随机效应和总体均值是线性相关的,因此不能单独估计。
为了进一步缩短计算时间,我们开发了P3D算法,这是一个两步法,不需要迭代来估计群体参数,例如每个标记的遗传方差和残差方差。该算法的第一步是优化减少的MLM,排除标记效应。如果压缩包含在模型中,则填充参数还包括聚类算法和压缩级别。从应用于标记辅助育种22的类似方法得出,该算法的第二步继续拟合MLM中的随机遗传效应,其中先前确定的群体参数固定为经验贝叶斯先验23。随后,估计每个标记的非群体参数,包括标记效应和随机遗传效应。
P3D类似于两步残差方法17,但它也有显着差异。残差方法拟合来自减少的MLM的残差作为第二步中的因变量,而原始表型适合作为P3D第二步中的因变量。此外,残差方法不适合随机遗传效应,并且在测试标记时使用GLM,而P3D符合随机遗传效应与先前确定的MLM框架中固定的群体参数。
为了评估相对于标准MLM的压缩和P3D并完全优化每个标记的所有未知参数,我们在观察到的或模拟的表型与观察到的人,狗和玉米标记之间进行了一系列关联研究。对于观察到的表型,我们评估了压缩MLM在不同压缩水平和不同聚类算法下的拟合度。在观察到的表型与观察到的遗传标记之间没有关联的假设下,我们通过使用压缩的MLM来研究假阳性的分布。通过考虑观察到的表型与观察到的标志物之间潜在的真实关联,使用模拟的表型来评估统计学功效。通过添加遗传效应从观察到的SNP产生模拟的表型。具有指定遗传效应的SNP称为数量性状核苷酸(QTN)。 QTN的总数,遗传力和优势以及上位性效应是不同的,以验证P3D对具有不同遗传结构的表型的稳健性。我们使用模拟表型和非QTN标记之间的关联测试来分析F统计量,以确定显着性水平为5%的经验阈值5(P <0.05)。然后,我们将统计功效计算为Q值大于阈值的QTN的比例。
在线方法
标准MLM。
可以通过扩展Henderson15的符号来编写GWAS的标准MLM,如下所示:
(1)
关联检验的零假设是v = 0,另一种假设是。零假设的检验可以通过最大化下面的似然函数后利用或检验进行:
压缩。
压缩MLM的形式与等式(1)相同。 内容的差异在于个体被他们相应的群体取代,个体之间的亲属关系()被群体之间的亲属关系()所取代,其被定义为,其中,其中
在压缩的MLM下,似然(L)如下:
其中C是使用具有s组的聚类算法(其中s = 1,2,...,n)后的聚类结果。
P3D。
P3D的第一步是通过最大化以下似然来确定种群参数,包括遗传方差(),残差方差()和聚类结果(C):
然后,将群体参数固定为经验贝叶斯先验23,通过最大化以下似然,针对每个标记优化非群体参数(和):
(6)
通过在保持那些总体参数恒定的同时求解方程(1)一次(无迭代)来使等式(6)最大化。