Zamudio F, Wolfinger R, Stanton B, Guerra F (2008) The use of linear mixed model theory for the genetic analysis of repeated measures from clonal tests of forest trees. I. A focus on spatially repeated data. Tree Genet Genomes 4:299–313. doi: 10.1007/s11295-007-0110-4
摘要
本文综述了线性混合模型(LMM)方法,适用于从克隆子代测试收集的空间重复测量的统计和遗传分析。例如,我们考虑了杨树克隆试验,其中不同家系的后代通过插枝繁殖,并且在每个块上每个克隆仅种植一个分株。基于LMM理论建模协方差结构允许基于克隆测试改进遗传参数估计。除了方差分量,我们还获得了残差之间的协方差(在两个不同块中的克隆效应内)的估计。这种协方差是由于在同一试验中从相同基因型种植多个分株,其产生来自不同块的相关残留效应。其估计可显着改善克隆中后代测试或克隆测试网络中的测试之间的比较。结果表明协方差也是遗传方差估计的一个组成部分,并在评估特定(微)环境影响的方差中发挥重要作用。正协方差意味着分布在多于一个块中表现出类似的性能。因此,更大和更积极的协方差意味着控制地方环境中的性状表达的更强的遗传效应和更小的特定环境影响的变化。相反,负协方差意味着个别分株的性能受到对一个或多个嵌段特异性的强微环境效应的影响,这也可以直接增加克隆内变异性。
介绍
当研究数量性状时,森林遗传学家和树种育种者必须面对几个挑战。他们从几年的现场测试收集大量数据,其中一个或两个父母的血统已知,并运行统计分析旨在测试一组假设,并推断固定和随机效应参数在模型中对应到实验现场设计。他们然后使用统计结果来估计遗传参数,其适合于理解性状的遗传模式,预测对选择策略的响应,并且开发有助于区分突出基因型的精确排名。通常,选择的树将配置繁殖群体,尽管一些直接选择用于商业繁殖。
后代测试的数据的统计和遗传分析可能变得复杂,因为两个可能的原因。首先,从实地试验中建立的不同遗传项目收集的数据由于正常预期的死亡率而不平衡。第二,在后代的个体发育过程中多年来从相同的后代中常规地收集重复的测量。一般来说,重复测量用于描述其中在相同受试者或实验单元(例如树或后代测试中的图)上顺序观察到响应变量的数据。森林研究中的典型重复测量实验包括随机分配给处理的树和在一系列时间点上对每棵树测量的响应变量。因此,实验是一种因素试验,处理和时间作为两个因素。实验的数据分析涉及处理和时间的主要影响与它们的一级相互作用的方差的分配(Moser等人1990; Littell等人1998)。通常,反应用于纵向研究,旨在评估生长曲线随时间的趋势。 Meredith和Stehman(1991)提出了森林研究中重复测量的其他实例,例如评估疾病影响,监测光合作用和呼吸等。
在树种育种中,纵向数据分析的直接应用之一是幼年成熟相关性的估计,用于评估进行早期选择的可能性(Zobel和Talbert 1984)。然而,也可以在空间序列中进行重复测量,例如在树的茎中在(a)不同高度或(b)不同环数(摄影机年龄),在特定高度处测量的木材相关性状et al.2002,2005)。因此,森林遗传学的研究往往面临着在多个层次相关的数据。
传统上,树木育种程序依赖于测试由不同配对方案产生的完全和半同胞子代(Zobel和Talbert 1984)。随着更好的营养繁殖技术的发展,预先的育种计划正在增加使用选择的基因型的克隆用于测试和选择目的(Paul等人1997; Lynch和Walsh 1998; Giannini和Raddi 1992; Menzies和Aimers- Halliday 1997)。虽然,克隆测试的使用对于选择优质杨树杂种是传统的(Bisoffi和Gullberg 1996; Koubaa等人1998)。
因此,从克隆遗传测试收集的数据可能变得更复杂,以便分析,因为措施可以双重重复。首先,在空间上,因为来自相同克隆的两个分株的测量实际上是相同基因型的两个重复测量。第二,随着时间的推移,因为在不同时刻采取的相同尺度的措施是纵向数据。 Littell et al。 (2006)将这种类型的数据命名为时间序列横截面或面板数据。
有几种统计方法用于分析重复测量随时间的变化。 Littell et al。 (2006)提到例如:(1)在每个时间点的单独分析,(2)单变量方差分析,(3)时间对比变量的单变量和多变量分析,和(4)混合模型方法。 Moser et al。 (1990)也提到时间序列分析。在过去20年左右的线性混合模型(LMM)方面已经做了大量的工作(McCulloch和Searle 2001),它已经通过计算硬件和软件的开发得到了增强。因此,当前的LMM方法不仅允许在线性模型中存在方差异质性(仍然假定正态性),而且允许研究者直接解决协方差结构。建模数据的协方差结构可以通过提供有效的标准误差和高效的统计测试来提高我们分析重复测量数据的能力**。
在本文中,我们审查适用于从克隆森林试验收集的空间重复测量的统计和遗传分析的LMM方法。来自在智利中心建立的杨树克隆测试的数据用作例子。
材料和方法
布局
考虑克隆子代测试,其中g家族的后代通过插枝繁殖,并且每个克隆只有一个分株种植在r块中。因此,我们有单分布图。表1显示了现场试验的设计。在我们的描述中,我们假设每个家庭中有n个人。因此,当初始设置试验时,家族具有平衡数目的克隆。
混合模型选择过程
不同的作者考虑Diggle(1988)和Diggle等人的工作。 (1994)作为混合模型选择的一般策略。它包括三个阶段。他们由Wolfinger(1996)总结:
- 步骤1.选择初始平均模型并识别分析主题。它基于关于假设的基本概率分布的某些假设。固定效应在这里确定。包括感兴趣的平均值和相互作用项,就像在纯固定效应模型中。
- 步骤2.选择与表达式17(附录1)描述的一般LMM相关的矩阵G和R的初始方差 - 协方差结构。有几个选项可用,例如相关的科学理论和图形辅助(例如残差图,半变异函数等)。这将确定θ,V中未知参数(方差和协方差分量)的向量(见附录1)。 Verbeke和Molenberghs(2000)更详细地讨论了不同的选择选项。
- 步骤3.估计所有未知参数,并使用形式统计技术来比较方差 - 协方差结构并选择最可能的。
一旦选择了协方差结构,我们可以测试与固定效应相关的假设,对随机效应进行预测,并得出关于方差 - 协方差分量的推论。每当固定效应结构减少时,协方差结构应该理想地被重新验证。最后,我们定位于估计遗传参数,并对所选基因型的遗传价值以及对不同选择方案的遗传反应进行预测。附录1提供了有关测试程序的更多信息,在“讨论”中对这些步骤进行了严格的审查。
用于克隆测试的线性混合模型
对应于该克隆子代测试的一般线性混合模型是
R矩阵的方差协方差结构的选项
当R矩阵本身的协方差结构是分析的主要焦点之一时,克隆变异的遗传研究是一个适当的例子。这和纵向数据分析的许多工作不一样,纵向数据分析注意力几乎完全集中在横截面平均值和可能的协变量对平均值的影响。这里,方差分量估计和在块内繁殖的克隆的异质性是主要关注的。
有几个不同的协方差结构可供选择,目标是找到一个适合数据但结构尽可能简单的结构。三是最常见的假定协方差结构。它们在表2中表示并且被称为复合对称(CS),一阶自回归[AR(1)]和非结构化(UN)。 CS和AR(1)是均匀结构;即沿着主对角线的方差是常数。该协议的协方差形式不同,CS的协方差保持不变,AR(1)的协方差呈指数下降。事实上,联合矩阵是异质方差和协方差安排的最一般形式。相比之下,CS和AR(1)结构各自仅具有两个参数。在下面的“讨论”中给出了对替代异质结构的综述和比较。