Banerjee S, Finley AO, Waldmann P, Ericsson T (2010) Hierarchical Spatial Process Models for Multiple Traits in Large Genetic Trials. J Am Stat Assoc 105:506–521. doi: 10.1198/jasa.2009.ap09068
本文通过在感兴趣的多个性状的大的空间参考试验数据集的背景下发展用于推断加性和优势遗传方差的空间过程模型,扩展了对贝叶斯分级模型在定量遗传学中的最近兴趣。将这种多元模型直接应用于大空间数据集通常是计算上不可行的,因为涉及估计的三次矩阵算法。在马尔科夫链蒙特卡罗(MCMC)上下文中情况甚至更糟,其中这样的计算被执行几千次迭代。在这里,我们讨论方法,有助于消除这些障碍,而不牺牲建模的丰富性。对于遗传效应,我们演示了关系矩阵的初始谱分解如何消除了以前提出的MCMC方法中所需的昂贵的矩阵反演。对于空间效应,我们讨论了一个多元预测过程,通过将原始过程投影到由指定的一组位置(或节点)处的原始过程的实现产生的子空间来减少计算负担。我们说明所提出的方法使用具有多变量加性和显性遗传效应和各向异性空间残差的合成数据集,以及来自在瑞典北部进行的苏格兰松(Pinus sylvestris L.)后代研究的大数据集。我们的方法使我们能够对这个大型试验提供一个全面的分析,充分证明,除了违反线性模型的基本假设,忽略空间效应可导致向下偏倚的遗传力测量。
1.引言
增加国际碳信用市场和对木纤维供应以满足新兴生物经济的需求激发了对改善森林生态系统服务的兴趣。这种需求大部分将通过大型人工林实现,因此,森林人员寻求提高这些种植园生产力的方法。树种育种是提高生产力的最重要的方法之一。在这里,重点是通过识别和交配具有高育种价值的优秀个体,增加某些性状的未来世代的遗传增益。在种植园环境中,林农通常对改善木材产量(例如增加茎高和直径)的性状感兴趣。根据木材的预期用途,还有其它考虑的性状,例如确定茎质量的那些(例如,由茎的分枝产生的结的数量和形式)。主要目的是揭示这些不同的主要或次要利益性状之间的相互关系是有利还是不利于未来选择(即,根据研究的目的评价性状是正相关还是负相关)。 Henderson和Quaas(1976)在定量遗传学中引入了多性状动物(或树或个体)模型。高效育种需要对多性状动物模型和个体育种值中的遗传方差和协方差参数的准确估计(Lynch和Walsh 1998)。定量遗传学研究多基因性状的遗传,集中于估计加性遗传方差和遗传性,通常估计为总遗传和未解释变异中的加性变异的比例。高遗传力应该导致更大的选择反应,即,在后代中遗传获得的更高概率。林业和农业遗传试验的共同特征是观测单位之间存在系统性异质性。如果在模型中忽略这种空间异质性,遗传参数的估计可能会有偏差(Dutkowski et al。2002; Cappa and Cantet 2007)。对于空间排列的观测单位,小数据集的异质性不足以用于育种目的。最近,Finley et al。 (2009a)提出了一类具有遗传和空间随机效应的适合大数据集的单个结果变量的层次模型。遗传协方差矩阵的规则频谱分解连同降级空间过程使用MCMC方法进行全贝叶斯推理。
本文将Finley等人(2009a)的工作扩展到多变量空间设置,其中已经观察到具有已知谱系的地理参考树。我们假设这些性状之间和之间的变异可以通过遗传,空间变异(例如土壤特征或小尺度地形属性)和一些非结构化测量误差。在这里,我们关注在木材和生物质的树的生产中至关重要的三个性状:高度(H),距离地面1.4米的直径(D)和分支角度(B)。前两个特征描述了树木(即木材体积)产生的木材量,第三个特征描述了木材质量(即由于连接到树木的树枝所产生的结点)和树木的结构完整性树(即,由于大雪荷载而破裂的敏感性)。通过评估每个性状添加剂的变异性,以及在调整一个位置内的相关性的同时调整一些非加性效应,连同育种值,种植树苗圃能够更好地在育种群中选择以产生种子遗传性状的最大遗传潜力。一种方法通过利用变量之间的条件关系(空间回归)建立分层多元空间模型(Royle和Berliner 1999)。这可以获得一些计算上的好处(例如,参见Banerjee,Carlin和Gelfand2004,第7.2.2节),并且在条件具有天然的年代或因果关系的情况下是有用的。然而,对于遗传性状,这样的年表通常缺乏或充其量有争议,并且寻求联合多变量模型(例如,Gelfand等人2004; Jin,Banerjee和Carlin 2007)。对于遗传效应,我们利用可分离的关联结构,并导出多元特征分解,将遗传与特征之间的关联分开,产生显着的计算益处。对于多变量空间依赖,计算上可行的选择是“可分离”或“内在”关联结构(参见例如Banerjee,Carlin和Gelfand 2004,第7章)。在这里,每个特征被赋予相同的空间相关函数。对于不同性状,结合的强度和性质将不可能是相同的,并且我们寻求适应每个性状的不同空间相关函数的更灵活的相关结构。一个“核心化的线性模型”(Gelfand et al。2004)产生任意丰富的多元相关模型,但是它对大型数据集的估计是繁重的。降级多变量“克里金”模型可以帮助实现尺寸减小。一种可能性是使用在单变量设置中相当显着的低秩平滑样条(Kamman和Wand 2003; Ruppert,Wand,and Carroll 2003; Crainiceanu,Diggle和Rowlingson 2008)。有了多个性状,我们需要多变量样条,其规格可能很难。降级多元空间过程可以说是更自然的,至少在相关函数的良好互译性的同时也是灵活的(见Banerjee等人2008; Cressie和Johannesson 2008)。这里的关键点是解决在低秩克里金或样条模型中出现的方差分量的估计中的系统偏差的问题。由于大多数现有的低秩方法集中于预测和平滑,这在上述文献中仍然基本上未解决。在这里,我们提供进一步洞察这种系统偏差和改进预测过程模型与偏差调整,很容易应用于多变量应用程序。再次,我们在这里采用的空间过程方法有助于理解和纠正这些偏差,可以说,将更难以用多元曲线解决。在第2节中,我们为数据开发多元空间模型。第3节讨论减少尺寸的预测过程模型,从这些模型估计方差成分的系统偏差及其补救措施。第4节概述遗传和空间效应的实施细节。第5节介绍了合成数据分析和苏格兰松分析。最后,第6节总结了本文的简要讨论。