- Waldmann P, Hallander J, Hoti F, Sillanpää MJ. Efficient Markov chain Monte Carlo implementation of Bayesian analysis of additive and dominance genetic variances in noninbred pedigrees. Genetics [Internet]. 2008 [cited 2016 Nov 14];179:1101–12. Available from: http://sci-hub.cc/http://www.genetics.org/content/179/2/1101.short
准确和快速计算定量遗传方差参数在自然和繁殖群体中都非常重要。对于具有复杂关系结构的实验设计,在统计模型中包括加性和显性方差分量可能是重要的。在这项研究中,我们引入了贝叶斯吉布斯抽样方法,用于估计传统的无穷小模型中的加性和显性遗传变异。该方法可以在没有近亲的情况下处理一般家系。为了优化计算时间和马尔可夫链蒙特卡罗(MCMC)链的良好混合,我们使用混合Gibbs采样器,其结合单个位点和封闭的Gibbs采样器。通过使用预转换变量,进一步改善了混合取样器的速度和单位点取样器的混合。从先前公布的苏格兰松(Pinus sylvestris L.)的双列后代测试和具有不同显性方差水平的两个大模拟数据集分析了两个性状(高度和树干直径)。我们还在后验预测损失法的基础上进行贝叶斯模型比较。结果表明,具有加性和显性分量的模型对于高度和直径以及具有高显性的模拟数据具有最佳拟合。对于具有低显性的模拟数据,我们需要一个信息,以避免显性方差分量被高估。苏格兰松林数据中的狭义遗传力估计与较早的结果相比较低,这是不奇怪的,因为显性方差的水平相当高,尤其是直径。通常,混合采样器比阻塞采样器快得多,并显示出比单位点采样器更好的混合特性。
前言
与自然适应相关的多数性状和育种改良受许多基因(多基因性状; Lynch和Walsh 1998)的影响。在定量遗传学中,多基因性状的遗传变异通常被估计为加性遗传方差(和遗传力)。遗传力的估计具有根本重要性,因为这个比率影响可以预期在所考虑的群体中的自然和人工选择的反应(Falconer和Mackay 1996)。因此,相当关注用于估计育种值和遗传力的统计方法的发展(Henderson 1984; Searle等1992; Lynch和Walsh 1998)。
遗传方差可以进一步分成加性遗传成分和非累加遗传成分。显性方差由同一基因座处等位基因之间的相互作用引起,而上位方差由不同基因座处等位基因的相互作用引起。传统上,已经进行了复杂的交叉设计以估计显性和上位性方差,例如北卡罗来纳(NC)II设计和三重测试跨线; Kearsey和Pooni 1996; Lynch和Walsh 1998?.Henderson(1985a,b)表明基于多基因成分和谱系信息(通常称为动物或个体模型)的混合效应模型如何可用于推导非加性遗传效应和方差设计。由于加性,显性和上位性遗传效应在未选择的、连锁平衡的非近交群体中是不相关的(Cockerham 1954),理论上应该可以通过加性和显性关系矩阵的各种组合的乘法来估计所有这些遗传效应,在混合模型方程中使用这些。例如,加性 - 加性上位关系矩阵将通过两个附加遗传关系矩阵的元素方式乘法获得。不幸的是,在实践中,上位关系矩阵将是彼此的倍数,这可能导致统计模型中的参数的可识别性的顶点(对于关于可识别性的讨论,参见Gelfand和Sahu1999)。此外,应该注意包括支配因素,因为考虑的谱系可能太小,不能导致可识别的结果(Misztal 1997)。非加性遗传方差分量的估计是至关重要的几个原因。首先,它将产生更准确的统计估计,因此可以实施更准确的选择策略(Du和Heschele 2000)。这在附带实验设计中特别重要(Henderson 1985b)。在这种情况下,标准加性模型(假设残差与恒定方差不相关)可以产生加性遗传值的有偏估计,因为简单残差方差结构是错误的(Lynch和Walsh 1998)。已经发现非加性遗传效应可以对育种值的排名具有相当大的影响(Wall等人,2005)。第二,显性本身是有意义的,因为它与预期的近交衰退水平耦合(Cockerham andWeir 1984)。因此,没有显性作用不会有近交衰退,避免近亲繁殖在育种设计和保护计划中不太重要。
最近,从理论的角度来看,显性作用和上位性可以转化为瓶颈和近交的加性遗传方差(例如,Willis and Orr 1993; Wang et al.1998; Lopez-Fanjul et al.2002; Barton和Turelli 2004)。这些发现在一定程度上通过对模式生物的经验研究得到支持(例如Garcı'a等人1994; Fernandez等人1995; Whitlock和Fowler 1999)。 Hallander和Waldmann(2007)研究了在对育种群体进行截短选择truncation selection时非加性遗传相互作用的重要性。他们发现非加性方差最初可以在截断选择期间转换为加性遗传方差(参见Fuerst等人1997)。然而,这些问题需要进一步调查与基于系谱的统计方法。
贝叶斯统计方法已经在遗传学中变得非常流行(Gianola和Fernando 1986; Shoemaker等1999; Blasco2001; Walsh2001; Xu2003; Beaumont和Rannala 2004),因为后验分布以概率形式概括点估计周围的不确定性(准确性)。马尔科夫链蒙特卡罗(MCMC)方法,用于贝叶斯推理近似后验分布,受Gibbs采样算法发展的推推动(Geman和Geman 1984; Gelfand和Smith 1990),在1990年代上半年引入定量遗传学(Wang等人1993年; Sorensen等人1994年)。吉布斯采样已被用于推断许多不同的定量遗传参数,例如,在加性,永久环境和母体效应的后验估计,以及缺失数据的多变量数据集(Sorensen和Gianola 2002)。从方差分量模型的角度来看,已经为有限位点模型(Du和Hoeschele 2000)开发了说明显性和上位性的贝叶斯方法,它可以解释为对多元分量的有限位点近似。多因素成分也存在于一些Bayesian QTL作图方法中(Yi和Xu 2000; Lee和Van Der Werf 2006)。
具有加性和显性分量的模型是否优于简单的加性模型,可以通过模型选择来评估。存在用于替代统计模型的模型选择分析的几种不同的方法。在频率统计中,似然比测试(RAT)和Akaike的信息标准(AIC)是最常见的,而Bayes因子,贝叶斯信息标准(BIC),偏离信息标准(DIC)和后验预测损失统计是贝叶斯文献的工具。最近对LRT和AIC的分析表明,这些方法可能在混合模型中产生不正确的结果(Crainiceanu和Ruppert 2004; Vaida和Blanchard 2005)。贝叶斯模型比较方法更一般,但也需要进一步评估。
在本文中,我们制定了一种快速贝叶斯吉布斯采样方法,用于估计在无近亲动物(或个体)模型中的加性和显性遗传变异,应用于没有近亲的一般设计的实验。我们使用混合Gibbs采样器,其是快速但慢混合的单位点Gibbs采样算法(例如,Sorensen和Gianola 2002)和缓慢但快速混合的阻塞Gibbs采样算法(Carcı'a-Corte' s和Sorensen 1996)。我们的方法的新颖性是使用可变变换,其中新的变换变量的协方差结构(即,加性和显性关系矩阵的逆)是对角的,这大大加速了两个吉布斯采样器的计算并且改进了混合单站点吉布斯取样器。该方法适用于先前公布的苏格兰松(Scots pine)(Waldmann和Ericsson 2006)定量遗传研究的两个性状(高度和树干直径)的数据,以及来自具有高和低显性方差的大NCII设计的模拟数据。此外,我们使用后验预测损失标准来比较具有不同数量方差分量的模型**(Laud和Ibrahim 1995; Gelfand和Gosh 1998)。
结果
在这项研究中,我们开发了一种有效的策略,通过使用贝叶斯推理和变量变换估计遗传参数包括显性方差。该方法在对实数和模拟数据进行评估时表现良好。此外,本研究中的狭义遗传率低于Waldmann和Ericsson(2006)对相同数据的纯加性模型所发现的。因此,根据实验设计和性状数据,有时重要的是估计加性和非加性遗传组分群体。另外,育种值的排名可能是非最佳的,遗传力估计可能被高估,有时相当大。
非加和遗传效应对育种的影响:
在奶牛中,Wall et al。 (2005)调查了近亲繁殖,杂种显性,重组损失和迁移对生育力(适应度)性状和产奶量的影响。研究的目的之一是检查非加性效应是否改变了育种价值的估计和公牛的排名。他们报告说,非加性效应对生育性状和奶产量有影响,尽管不是非常显着。此外,如果包括非加性效应,公牛排名有差异,这导致一些个体的排名发生相当大的变化。在我们的研究中,加性遗传效应的排名在加性和加性加显性模型之间有显着的差异。对于前100名个体,选择非最佳候选者的风险高达21%(高度)和13%(直径)。这表明在育种计划中的个体的排名和选择中包括非加性效应可能是重要的,只要它们存在。此外,在模拟研究中(VaronaandMisztal 1999),显示与基于纯加成模型(在具有特定组合能力的谱系设计)中的选择相比,包括显性组分可以有助于选择≥10%的遗传应答的增加。选择反应的最高增加发生在加性遗传率低,显性遗传性高,选择强度低和全同胞高的比例(Varona和Misztal 1999)。来自苏格兰松分析的设计和结果与这些发现非常吻合,因此我们可以预期,包含该显性分量将增加该群体的后代中的选择反应,特别是如果育种目标是直径。
非加性遗传效应的实证估计:
Crnokrak和Roff(1995)在综合评论中检查了显性方差和选择之间的关联。他们的研究汇编表明,显性差异水平在野生物种的不同性状类别之间变化。显性对于生命史性状最高,对于生理性状略低,对于形态学性状最低(VD / VA = 1.17,VD / VA = 1.06,VD / VA = 0.19)。此外,他们发现国内物种的不同性状类别之间的显性差异水平没有总体趋势,但是VD / VA相对较高(在0.79和0.91之间)。在最近的一篇综述中,Roff和Emerson(2006)综合了线交叉实验的显性和上位性研究。他们发现,几乎所有的关于生命历史和形态特征的研究中都存在显性相互作用(分别为96.5%和97.4%)。但是,生命史特征中显性与加性效应的比率是形态性状的两倍。上位相互作用不如显性地位常见,但仍然在79.4和67.1%的生命历史和形态特征中发现。与显性的情况类似,上位性与加性效应的比率在生命历史上高于形态性状。
生活史性状被定义为与适合度恒定并直接相关的那些性状,例如生殖力,存活力,存活和发育时间。
林木中的非加性参数:
历史上,对于非加性方差分量的注意在林木育种中受到限制。不幸的是,许多关于森林中非加性方差分量的研究都是基于太小的数据集,因此我们将讨论限制在一些设计良好的实验中。 Fries和Ericsson(1998)估计了苏格兰松六种不同性状的显性方差,发现了高显性值,特别是树径(VD / VA = 2.80)。然而,他们无法估计树高的显性变化。在火炬松中,Jansson和Li(2004)估计特异性组合能力与一般组合能力的方差比ðs2SCA = s2GCAÞ在0.36的生长体积,而Balocchi等(1993)调查年龄趋势的高度和报告,VD / VA随时间变化0.20和4.42之间。在辐射松中,Wu和Matheson(2004,2005)估计s2 SCA = s2 GCA的树高分别为0.90和0.95.Wu和Matheson(2004)建议应采用特殊的交配设计,以利用非加性方差的育种目的,另一方面,Jansson和Li(2004)认为在育种计划中只应考虑加性方差。也在道格拉斯冷杉,Yanchuk(1996)使用大数据集来估计非加性方差。他们得出结论,与非加性方差相比,加性方差的水平平均高三倍,并且与树高相比,该直径具有更高水平的非加性方差。总之,与加性方差相比,显性水平似乎没有总体趋势,但它往往似乎至少存在一些显性。
统计问题:
使用基于家系的模型来估计显性方差(通过相互作用因子)可能会得到有偏差的加性和显性方差估计,因为系谱中的信息不是同时使用的。在动物育种中使用基于血统的方法(即动物模型)若干次来估计显性方差(例如Hoeschele和Vanraden 1991; Misztal 1997)。通常,在非随机交配(例如,育种群体)的群体中进行遗传评价,其中动物模型考虑了多个世代的选择,不同于基于家系的方法(Kennedy等人,1988)。此外,使用基于家系的模型对一般和特定组合能力的估计将包括通常被忽略的高阶上位效应的一部分(Lynch和Walsh 1998)。结果,可能发生加性和显性方差的高估。
在动物模型中,与观察的数量相比,要估计的随机效应的数量通常较大,导致过参数化的方程系统可能导致参数的不可识别性。如果在模型中拟合了几个遗传因素,这是特别具有挑战性的。可以通过向谱系添加额外的没有记录的世代来改善可识别性的问题。换句话说,使用复杂的谱系从加性分量中分离非加法方差分量是更有效的,因为非加性的相同下降矩阵趋向于在复杂谱系中具有比在简单谱系中更多的非零元素(Mao和Xu 2005) 。
信息先验可以用于使参数在贝叶斯模型中更可识别(Gelfand和Sahu 1999; Sorensen和Gianola 2002)。在统计学中也众所周知的是,重复和相关的性状测量将减轻可识别性的问题。使用更经济的参数化也可以帮助,例如,父亲育种值表示非亲本育种值的父亲或减少的动物模型(Quaas和Pollak 1980)。或者,可以通过操纵动物模型的系数矩阵来减少方程的数量,这导致不对称的系数矩阵(参见Henderson 1984; Lynch和Walsh 1998)。最后,还可以对无穷位点模型使用有限位点近似来估计非加性参数(例如,Du和Hoeschele 2000)。然而,一般的缺点是估计值取决于使用的基因座的数量。
我们使用后验预测损失标准来比较包括不同数量的随机遗传组分的模型。在频繁的统计学中,通常使用LRT进行遗传方差分量的假设检验,其评估简化模型是否给出与完整模型相同的数据拟合。一般来说,如果样本量较大,则该测试对于双侧假设表现良好,因为LRT的分布然后遵循卡方分布,渐进地。另一方面,当数据量增加时,所有假设最终变得具有统计意义(Sillanpa¨和Auranen 2004),对于方差分量等有界参数,空分布可能难以估计(Crainiceanu和Ruppert 2004)。因此,在这些情况下,使用卡方分布近似LRT的分布可能会给出不正确的结果。另一个常用的统计量是使用似然性(拟合优度)和对应于模型中参数(K)的数量的惩罚项的AIC。 K通常被计算为固定效应的设计矩阵的等级加上方差的数量。 Vaidaand Blanchard(2005)认为,当推理的焦点是混合模型中的随机效应时,K需要用一个称为有效参数数量的参数(其考虑了参数之间的相关性) 。有效参数的估计不是直接的,在我们的分析中没有执行。
在贝叶斯分析中,贝叶斯因子已被用于在具有和不具有分子标记的动物模型中测试多基因遗传参数(Garcı'a-Corte等人,2001)。然而,贝叶斯因子仅适用于具有完全适当先验的模型,并且对模型的参数化敏感。 DIC最近被提出作为一般模型选择标准,并已用于动物模型中的评估(例如,Rekaya等人2003)。 Sorensen和Waagepetersen(2003)提供了关于动物模型的不同贝叶斯模型比较标准的广泛讨论。在本研究中,在使用DIC的令人失望的初始实验之后,我们选择使用后验预测损失方法。苏格兰松数据的模型比较结果表明,包括加性和显性效应的模型应该优于减少的模型。模拟数据的分析也表明Dm工作,但是对方差分量的水平敏感,我们建议在小方差的情况下,用不同先验的几次运行估计这个统计量。
Damgaard(2007)基于Mrode和Thompson(1989)的观点使用了一种育种价值转化,以获得适用于单站Gibbs采样的先验不相关育种值。在我们的方法开发过程中,我们尝试了类似的方法对于此处考虑的大型家系,但由于繁殖值的后验相关性太高而遇到混合问题(结果未显示)。为了克服这里的混合问题,我们提出了混合采样器。此外,我们不会在我们的转换中将方差分量重新调整为单位方差,因此我们不需要应用反向转换。 Chalh和El Gazzah(2004)提出了另外两种Gibbs加法和显性模型的抽样方法。第一种方法从仅具有加性(A)分量的动物模型获得估计,然后计算作为加性效应的直接函数的显性效应。第二种方法是基于修改来自动物模型的混合模型方程残差,只有附加(A)分量。与传统的加性加显性单站点吉布斯取样器相比,加速度是相当大的,但是需要进一步的比较分析关于混合性能