- Piepho HP, Richter C, Williams E. Nearest neighbour adjustment and linear variance models in plant breeding trials. Biometrical J. 2008;50:164–89.
本文综述了最近邻分析的方法,适用于一维的局部趋势。这样的方法通常用于植物育种和品种测试。重点是简单的差分方法,包括第一个差异和Papadakis方法。我们讨论这些方法的混合模型表示观察数据的规模。与差异相比,建模观察数据具有许多实际优点,例如方便地计算调整的品种平均值的设施。大多数模型考虑涉及线性方差协方差结构,可以表示为状态空间模型。使用三个数据集来例示所审查的方法和模型。
新作物品种和育种品系的评价需要在跨多个环境重复的田间试验中进行测试。通常,测试的品种数量很大,通常达到超过100个条目。在早期生成试验中,植物材料可能是如此有限,以至于难以完全重复,因此经常使用具有重复检查例如增强设计的设计(Federer,1961,2002; Williams和John,2003)。在后代和用于释放的品种中,具有两到四个重复的重复试验是常规。由于大量条目,某种形式的不完全区组在两种情况下都是常见的,优选使用诸如a-designs的可分辨设计(John和Williams,1995)。最近,对用于分析产量试验的地质统计方法的兴趣增加,并且可以考虑这样的分析选项来优化设计(Williams等人,2006; Cullis等人,2006)。本文涉及最近邻居调整(NNA),一种特殊类型的地球物理分析现场试验。假设根据某种区组设计布置了试验,并且每个块执行空间调整。我们的重点是一维调整,假设空间趋势主要是在一个方向,这将是这样的情况,当块已经被定向为与任何主要趋势正交,并且由等间隔的小区的单个阵列组成,如许多重要作物,最着名的是谷物,其中地块长而薄。一维分析类似于具有对应于小区的空间位置的时间点的时间序列分析。我们的基本模型可以写为vj =lþbðjÞþtjþej; ð1,其中绘小区(j = 1,2,...,n)按照场次序索引,vj是第j个小区上观察到的产量,l是截距,bjjjj是测试的品种对j的影响第i个品种生长在第j个小区上,tj是局部趋势,ej是测量误差。本文考虑的模型在tj和ej的假设不同。虽然我们最初通过相关联的计算分析方法来激励一些模型,但是应当理解,模型选择优先于特定计算方法的选择。自从Papadakis(1937)的开创性工作以来,NNA的想法已经引起了相当大的关注,例如在Bartlett(1978)和Wilkinson et al。 (1983)。已经提出了许多扩展和修改。基本思想是通过从相邻小区中减去一些观测值的函数来调整绘小区值,假设该操作至少大致消除了局部趋势。对于Papadakis方法,第j个小区的调整采用形式
其中b是通常不远离统一的回归系数。方程(2)可以通过不同的模型来证明,如本文所述。在其最简单的形式中,Papadakis方法取b = 1,因此通过相邻平均值的减法获得调整(Wilkinson等人,1983)。此方法等效于分析绘制值之间的第二个差异,由。或者,可以通过几种方法之一迭代地确定b的适当估计(Wilkinson等人,1983),或者可以将相邻小区的平均值用作协方差迭代分析中的协变量(Wilkinson,1983; Stroup等人al。,1994; Wu et al。,1998)。这些方法已经被几家植物育种公司常规使用。例如,一些德国植物育种者使用软件包ANOFT(Schwarzbach,1984),其基于(2)以b = 1执行NNA。在该包中实施的方法采用迭代算法以通过最小二乘估计参数,假设独立的第二个差异。 AN-OFT内核也成为AGROBASE Generation II软件(www.agronomix.com)(E. Schwarzbach,2007,和D. K. Mulitze,2007,personal communication)的一部分。 NNA的另一个选择是通过第一差异去除趋势rj = vj + 1?vj。
第一差异在误差自由度方面比第二差异更便宜。 Wilkinson等人的第二个差异的建议。 (1983)在很大程度上是由他们对澳大利亚品种试验数据库的表现推动的,而基于英国品种试验的经验推荐了第一个差异和相关的线性变异模型(Williams,1986)。在那个阶段(可能还是这种情况),澳大利亚的数据往往比英国更加可变,并且更多地用于二次差分而不是首次差分。我们认为,随着温和的趋势,似乎在欧洲条件下盛行,使用第一差异就足够了。第一个差异已经被几个作者提出,包括Besag和Kempton(1986),Gleeson和Cullis(1987),Cullis和Gleeson(1991),Stroup和Mulitze(1991),Kempton等, (1994),Wu et al。 (1998),和Wu和Dutilleul(1999)。差分是ARIMA或Box-Jenkins模型的非常全面的机器的一部分,在时间序列分析中非常流行,其中第一差异对应于集成误差过程。这些模型已经在现场试验的背景下广泛研究(Gleeson和Cullis,1987),并且已经提出了对二维的扩展(Cullis和Gleeson,1991)。对于一个非常易于访问的帐户,请参阅Gleeson(1997)。最近,这些作者中的一些已经放弃了差分的想法,倾向于更复杂的模拟非平稳场趋势的方法,例如。对大规模趋势(Gilmour等人,1997)和平滑样条的随机效应的加法(Verbyla等人,1999)。虽然这些更复杂的方法具有其优点,但是它们在常规应用中更难以使用,因为在产生最终分析之前需要采取几个模型选择步骤,并且用于竞争地质统计模型和方法的最优模型选择是一个微妙的任务(Huang和Chen,2007)。相比之下,第一个差异的方法具有简单的优点,是相当稳健和有效的(Baird和Mead,1991),在实践中工作良好(Wu等人,1998; Wu和Dutilleul,1999)。第一个差异与威廉姆斯(1986)和随机游走模型(Piepho和Williams,2007; Lee和Piepho,2007)提出的线性方差模型密切相关,Piepho和Ogutu是一种特殊的状态空间模型。这种关系可以用于将等价模型拟合到原始数据而不是第一差异。类似地,可以通过迭代拟合协方差模型的分析来实现b 6 = 1的Papadakis方法,该协方差模型将相邻小区的平均值作为协变量(Wilkinson,1983; Stroup等人,1994; Wu等人。,1998)或通过拟合一个特定的状态空间模型,如本文所示。将邻域模型拟合为观测数据而不是第一或第二差异具有许多优点,包括便利地进行品种平均值的成对比较和处理缺失观测的容易性的便利。此外,扩展模型是直截了当的,特别是当需要考虑除了土壤趋势之外的多个变化来源以及当需要计算调整的方法时,可能考虑协变量。本文的目的是通过专门的拟合算法提供对NNA的一些看似不同的方法的统一评论。我们的论文强调了明确制定统计模型的优点,而不仅仅是为NNA提供算法。我们强调的方法来拟合模型到观察数据,而不是差异数据。我们的审查主要集中于在混合模型框架中产生线性期望和线性方差 - 协方差结构的方法。
唯一的例外是具有b 6 = 1的Papadakis方法,其对应于非线性模型,尽管在b上有条件地是线性的,其可以在拟合中利用。方差协方差结构中的线性是与通常使用中的许多其他空间模型相比的显着特征(Schabenberger和Gotway,2005)。我们展示了当b = 1时,如何使用线性模型包来非迭代地实现Papadakis方法。我们将讨论这种非迭代方法如何与Schwarzbach的迭代方法中使用第二个差异相关1984)。接下来,将示出在简单混合模型中如何考虑由测量误差引起的第一和第二差中的随机依赖性,从而有助于实际中的路由使用。利用与线性方差模型(Williams,1986)和随机游走的密切联系,将展示如何在不实际计算第一或第二差异的情况下实现最接近的邻近调整。最后,证明了如何通过非线性最小二乘法来实现用于b 6/1的Papadakis方法,以及如何解释非线性混合模型框架中的变量的误差,再次利用与状态空间模型的联系。三个例子用于说明所提出的方法的范围。第一个例子是一个小的人工数据集,而第二个数据集来自一个更大的实验(Besag和Kempton,1986)。使用小数据集以便说明NNA的不同方法的计算步骤。真实数据集用于举例说明一些更复杂的模型,并证明空间分析的模型选择需要一些谨慎。来自真实实验的第二个例子是为了显示如何将空间分析容易地整合到大量试验的常规分析中。我们把注意力集中在一维调整上。为了简化说明,我们的一些方程考虑了单个小区块的情况,但是扩展到几个块是直接的,并且事实上在示例中使用。块可以与字段中的单列小区相同,或者列可以被划分为几个块,使得块是连续的,但是针对趋势的调整不会跨越块延伸。根据随机化结构,块可以对应于可分辨设计的不完全块,或者它们可以对应于随机完全块设计的完全重复。这一审查部分是由一些植物育种公司表示希望从传统迭代NNA迁移的动机? la Papadakis到一个更强大的完全混合模型分析与本地趋势的空间组件。这样的分析框架非常灵活,例如允许包含用于关联映射的混合模型组件(Stich等人,2008)和利用谱系关系来预测育种值(Stroup和Mulitze,1991; Piepho等人,2008) 。