Cappa 2006 贝叶斯多性状单株模型共轭Gibbs

Cappa EP, Cantet RJC. Bayesian inference for normal multiple-trait individual-tree models with missing records via full conjugate Gibbs. Can. J. For. Res. 2006;36:1276–85.

在森林遗传学中，来自正常多个性状个体树模型的（共）方差分量的受限最大似然（REML）估计受到在任何性状和个体中没有观察的影响。遗漏记录影响遗传学参数或其功能的REML估计的分布形式，并且当分析若干性状时，计算涉及估计方程。 REML估计的替代方法是通过马尔科夫链蒙特卡罗的完全贝叶斯方法。本研究描述了Cantet等人提出的完全共轭Gibbs算法的使用。（R.J.C.Cottet，A.N.Birchmeier和J.P.Steibel.2004.Genet.Sel.Evol.36：49-64）以估计多个性状个体树模型中的（共）方差分量。该算法比常规数据增加更快地参数的边际后验密度的多元正常数据与缺失记录。还给出了用于计算用于在正态多特征模型中选择线性参数的偏离信息标准的表达式。这些发展通过来自两种松属的不同杂交的数据来说明。

介绍

林木的遗传评价通常使用全或半同胞家系的后代测试的数据进行。由Borralho（1995）在森林遗传学中引入的单树混合模型适当地考虑了附加关系，特别是对于其中（共）方差分量是估计参数的多特征数据。限制最大似然（REML; Patterson和Thomson 1971）经常被森林养殖者使用（例如Huber等人1994; Dieters等人1995）来估计那些参数。从贝叶斯观点看，REML被视为所有（共）方差分量的联合后验分布的模式，具有非信息先验密度，一旦固定效应被数据的翻译不变性函数边缘化（Harville 1974）。然而，如果模型包含几个参数，并且数据中存在的信息量在参数之间不同，则从联合或边际模式获得的估计之间可能存在差异（Sorensen和Gianola 2002）。此外，REML依赖渐近理论来获得估计的精度的度量，因为估计方程必须迭代地求解，以致不可能获得估计的采样分布。 REML估计的替代是通过马尔可夫链蒙特卡罗（MCMC）方法的完全贝叶斯方法。
在过去十年中，贝叶斯理论对大多数科学领域的统计分析的贡献已经大大增加，因为通过MCMC算法进行后验推理的可行性。这些方法允许对每个个体参数的边际推断，并通过后验方差或后验标准误差产生估计量的精度测量（Sorensen和Gianola 2002）。此外，作为（共）方差分量的函数的复杂的，有意义的遗传参数（例如遗传性和遗传相关性）的分布作为MCMC抽样方案的副产物获得。注意，在具有加性关系矩阵和几个加性和环境协方差分量的多特征模型中，没有频率分布对应于后验分布：对于（共）方差参数（或它们的函数）没有小的样本分布。在D. Gianola和同事的领导之后，动物育种者使用MCMC技术，如1994年以来的Gibbs抽样来估计（共）方差分量（Sorensen et al。1994; Wang et al。1994）。最近，森林遗传学家已经熟悉使用MCMC算法的贝叶斯推理（Soria等人1998; Gwaze和Woolliams 2001; Zeng等人2004）。 Soria等人（1998）应用Gibbs取样对260个桉树桉树和地方遗传材料的生长进行遗传分析，使用双特性单树模型。 Gwaze和Woolliams（2001）使用吉布斯抽样来选择用于定位子代测试的位点的决策过程。最后，Zeng et al。（2004）使用Gibbs块采样器来推导半透膜设计中的主要基因和多基因效应。
通常，森林遗传学中遗传参数的多重性状估计受到由于死亡或树木损坏的遗漏观察或者数据记忆的实际和技术问题的影响。成本考虑或具有测量某些特征的操作问题导致这些性状的记录数量较少。昂贵的性状的实例是与木材质量有关的（Apiolaza等人1999）或“分支”（Shepherd等人2002）。导致较少记录的操作问题的示例是Dungey（2000）的报告，其中高度测量仅在每个地块的前两个树中进行。通常用于分析多特征模型的统计方法是“缺失数据”理论，只要取样导致“随机丢失”过程（Rubin 1976）。在遗传或二次抽样数据的多特征模型中遗传力和遗传相关性的估计是一个复杂的统计问题，即使是使用MCMC技术的贝叶斯方法。因此，Van Tassell和Van Vleck（1996）首先采用的数据增强算法趋向于收敛非常慢，因为MCMC链强烈地自相关。这种相关性的原因是“丢失数据”（未观察数据的误差项）和（共）方差分量的采样彼此依赖。为了减少这种相关性的影响，Cantet et al。（2004）提出了一种用于估计多种性状正态模型中的误差效应的协方差矩阵的MCMC方法：全共轭Gibbs（FCG）算法。这种方法的收敛速度比Van Tassell和Van Vleck（1996）通过减少抽样缺失误差和它们的协方差矩阵之间的相关性的数据推导过程更快。这是通过采样丢失的模式而不是个别丢失的错误来实现的，这将在下一节中解释。虽然在个体树模型中遗传随机效应被明确定义，但可能存在竞争性分类效应和协变量（固定或随机），可提供充分的适应。因此，在预测育种值之前，模型选择过程是必要的。例如，当分析来自纯种和杂交后代的数据时，模型方程可以包括用于平均加性（A），优势（D）和上位（A×A，A×D，D×D）。这些参数根据数据估计为协变量，每个基因型是它们的线性组合。此外，可能有不同的方式来阻止数据或不同的环境协变量包括在模型中。 Spiegelhalter et al。（2002）提出了贝叶斯统计模型选择，被视为Akaike信息标准的对应物：偏差信息标准（DIC）。 DIC由总拟合的度量和模型的复杂性的惩罚组成。本文的目的是双重的：（1）应用由Cantet等人提出的FCG算法。（2004）从具有缺失记录的多特征个体树模型估计（共）方差分量或它们的函数; （2）获得表达式以计算多特征个体树模型中的模型选择的DIC。通过来自不同十字架的数据来说明发展。 elliottii Engelm。（E）和加勒比变种hondurensis（Sénécl）Barrett et Golfari（H）。

Cappa 2006 贝叶斯 多性状单株模型 共轭Gibbs

介绍

推荐阅读更多精彩内容

Cappa 2006 贝叶斯多性状单株模型共轭Gibbs