- Wilkinson GN, Eckert SR, Hancock TW, Mayo O. Nearest Neighbour (NN) analysis of field experiments. J. R. Stat. Soc. B [Internet]. 1983 [cited 2016 Dec 21];45:G1–25. Available from: http://sci-hub.cc/http://www.jstor.org/stable/2345523
概要
论文分为两部分。第一部分介绍了蒙特卡罗随机研究的Papadakis的NN分析的协方差方法的结果,显示(i)非迭代的Papadakis分析倾向于保守地偏向; (ii)Bartlett(1978)建议的分析的迭代导致治疗F比的显着正偏差; (iii)当在数据中存在显着的趋势效应时,该方法是非常低效的。给出这些结果的理论解释。第二部分描述了由第一作者发现并与合作者合作开发的NN分析的新方法。该方法本质上是用于“固定”块(或行,列)的经典形式的分析的“移动块”模拟。它避免了Papadakis的方法的缺陷,并导致大约无偏见的分析。与完全或不完全块实验的经典分析相比,其平均几乎总是并且经常显着更有效,并且如果在数据中存在可观的行x列相互作用,则比拉丁或格子正方形设计的标准分析更有效。描述了NN平衡的新设计标准。随机化下的新方法的有效性用蒙特卡罗研究经验证明。
介绍
45年前由Papadakis(1937)提出并随后由Bartlett(1938)讨论的,通过协方差分析调整相邻地块的处理校正产量的局部趋势效应的场试验的产量的想法。遗憾的是,这个重要的想法遭受了长时间的忽视,直到阿特金森(1969)恢复了它的兴趣,也参见耶茨(1970,第148页)。 Pearce和Moore(1976)提请注意在实际应用Papadakis方法时可能的处理估计准确性的实质性提高,Bartlett(1978)在向皇家统计学会的一篇论文中重新审查了其理论性质参考对称自回归形式的最近邻模型。 Bartlett还建议该方法的迭代,使用来自先前迭代的处理估计来重新定义电流的最近相关协变量。 Pearce(1980)和Kempton和Howes(1981)提出了关于该方法的实际价值的额外的经验证据。
Papadakis方法的许多理论讨论集中在固定模型上。我们认为这是在田野实验的上下文中的错误,其中非稳态趋势效应通常是主要考虑因素。事实上,最近邻近调整在我们称为场近似实验的最近邻(或NN)分析的主要作用可以被描述为提供连续形式的局部去趋势,与经典方法的逐步块解除分析。本文从这个角度重新考虑了Papadakis方法,并且还描述了一种更有效的替代方法。本文按照这两种方法分为两部分。第一部分首先描述了具有均匀性数据的Papadakis方法的广泛的Monte Carlo随机化研究的结果。结果显示,尽管非迭代的Papadakis分析在随机化(略微倾向于保守偏差)下是合理有效的,但是Bartlett(1978)建议的分析的迭代导致治疗F比的严重向上偏差。然而,该方法的最严重的缺陷被发现是当趋势效应可感知时其固有的低效率。在1.3节中,根据平滑趋势+独立误差模型推导了无效率的理论解释。还给出了来自迭代的偏差的简单解释。 Papadakis方法中的低效率的来源被发现是形成最近相邻协变量时治疗效果的产率的先前校正。这导致第一作者发现一种替代的,更有效的NN分析方法,其可以合适地称为在Rothamsted实验站开发的经典“固定块”分析方法的“移动块”类似物。新的方法将在第二部分中描述,我们将其进一步讨论推迟到第11.1节。
第一部分Papadakis的方法
1.蒙特卡罗随机研究数据集在研究中使用了三组均匀性数据,从Wiebe(1935),Mercer和Hall(1911)和Kempton和Howes(1981)。它们描述如下。 Wiebe数据包括1500个小麦产量,1500个植物行,15英尺长和1英尺间距,125行×12列场布置。我们将其分为两个标记为W1和W2的集合,分别包括列1-6和7-12。 W1比W2更加可变,并且包括具有非常高产量的贴片。由于实验使用8排籽粒钻进行播种,其产生了对产量的行效应的重现模式,通过求和至8排总积分进一步减少数据。在本文的其他地方,我们还考虑4行总计,并区分具有下标8或4的两种情况。基于8行总和的轮廓图如图3所示。 Mercer和Hall数据,标记为MH,是来自20×25阵列的长10.8英尺长和11行宽,具有9英寸行间距(从指定的图面积估计,0.002英亩)的小麦产量。我们通过求和将这些数据汇总到4列总计的20×6阵列(省略列25)以获得相对长的图的产量,其中1-D NN调整将是适当的。来自Kempton和Howes(1981,第64页)的第三个数据集(KH)包括来自5英尺×14英尺样地的28×7阵列的大麦产量。实验设计和分析研究涉及a(3×2×2×2 )因子集的24次运行和100个随机设计,用于叠加在数据集WI,W2和MH上的5×6阵列中的30次处理的2或3次重复,以及在KH上的4次运行的附加的2×2阶乘集,具有4次重复在7×7阵列中的49处理。然后在每种情况下进行10个循环重复的Papadakis分析,总共进行了28000次个体分析。研究中的其他因素有随机:无限制,限制性;分析方法:1-D,2-D
无限制随机化是具有指定数目的重复和治疗的随机区组设计。除此之外,随机化被限制为给出第二级部分平衡(参见第11.6节),除了KH,其中限制性随机化是用于平衡格子正方形设计,用于与Kempton和Howes(1981) 。使用针对列邻居的单个NN协变量(1-D情况)或者针对行和列邻居的两个协变量(2-D)来执行Papadakis分析。边界图的协变量值仅使用可用的邻居来定义,因为边界图不包括在设计中。我们最初的研究,1980年12月完成,包括在Wi,W2和MH只有6运行,限制随机化和1-D分析。当Kempton和Howes的论文于1981年出版时,我们添加了一个关于KH的运行,以解决我们的结论与他们的结论之间的明显差异。 Kempton(个人沟通)建议,差异可能是由于他们的研究中的受限随机化(他们也使用2-D分析),所以我们如上所述扩展我们的研究。 (Kernpton自从他们原来的计算中发现一个错误,他们修改后的蒙特卡罗结果现在与我们的一致。