Piepho HP, Möhring J, Williams ER (2013) Why randomize agricultural experiments? J Agron Crop Sci 199:374–383. doi: 10.1111/jac.12026
这项研究说明了使用两个假设场试验的随机化的重要性,一个具有标记的系统趋势,另一个具有更不稳定的空间模式。 这两个例子的见解通过均匀性试验和小型模拟研究的分析得到加强。 结果表明,假设独立误差的基于模型的空间分析和基于随机化的分析在完全随机化时有效,但是当缺乏随机化时可能无效。 结论是随机化提供了针对不同形式的空间趋势的保护。 在研究中给出的例子作为一般提醒,农业实验应该尽可能随机。
介绍
科学实验的目的通常是使研究者能够将结果推广到未来的类似情况,而不仅仅是获得关于可测量性状的一些数值结果。考虑到这一目的,单个实验应当被认为仅仅是来自潜在大量的类似实验的单个样品,其可以是或可以用相同的实验单元进行的。统计分析方法允许有效的统计推断,可以生成超出观察样本或实验,只要设计的方式满足一些基本的统计要求。在设计实验中,需求归纳为适当的随机化。随机化在压力条件下的实验中特别重要,其中空间趋势和产量能力的异质性倾向于相当明显(Haase等人2007,Leiser等人2012,Mu€hleisen等人2013)。在本研究中,如果没有随机化,在空间趋势和异质性存在的情况下,有效的统计推断是困难的,如果不是不可能实现的话,在治疗效果的估计中的偏差是不可避免的。
虽然从Fisher的工作(1925年)以来,随机化作为实证研究中的基本原理的作用已经被很好地理解,但是它的重要性似乎并不总是被完全理解。根据我们审查文章和统计咨询的经验,相当多的农业实验缺乏适当的随机化。本研究使用几个例子来证明随机化是获得有效统计推理的关键先决条件。为了举例说明问题和说明关键想法,我们开始一个小的假设品种试验包括五个品种在20个情节。然后我们基于均匀性试验和小型模拟研究提出结果。在两者中,我们将系统设计与完全随机化设计进行比较。还探讨了空间分析的好处。
我们的文章基本上提醒了众所周知的事实和结果,许多统计学家已经审查和强调。一个与我们的风格和精神相似,但考虑不同应用的研究是Greenberg(1951)。我们承认,我们的阐述可能出现有点粗略的统计学训练。这种风格是有意的,我们希望它是吸引目标观众。可以在例如Kempthorne(1977)中找到对不限于农业实验的主题的更广泛和数学上严格的处理,我们认为,在农业背景下强化重要的随机化原则是很有价值的,并希望我们的文章对于从事农业实验和希望刷新其知识的人有一定的价值。
三个说明性例子
一个小的假设品种试验
为了说明随机化的重要性,假设对布置在5行乘4列的网格上的20个场图布局进行多项试验。进一步假设我们要在四个地块上测试五个不同品种(A-E)的小麦。然而,由于一些事故,所有种子袋仅含有品种A的种子,但是用于试验的袋无意中标记为A-E。因此,我们认为实验中不同的品种,事实上,同一品种的副本,也就是说,品种A在所有20个地块测试。图1显示了这种实验的假设结果。数据显示系统空间趋势,其产量从左下角向右上角递减。这种趋势可能是由于土壤类型和持水能力的异质性,进而影响产量。因此,例如,左下角的图将具有最大的观测产量,因为该图上的土壤具有最高的持水能力。
注意,该假设实验对应于所谓的均匀性试验。这样的试验,其中对每个区域应用相同的处理,通常被用来比较替代的实验设计和地块大小(Smith 1938,Williams和Luckett 1988)。现在,考虑在随机实验中将品种标签分配到图。最简单的实验设计是完全随机设计,其中将品种标签随机地完全分配给图。在这项研究中,我们完全集中于完全随机设计为简单。但是应该强调的是,良好的实验设计通常涉及某种形式的阻塞(完全或不完整的块,单向阻塞或行列设计)以用于有效的误差控制(Kempthorne 1977,John和Williams 1995)。虽然我们的重点是完全随机设计,我们关于随机化优点的结论同样适用于任何形式的随机块设计。
完全随机设计的一种可能的随机化如图2(a)所示。回想一下,尽管分配给图的不同品种标签,我们假设在现实中,在所有图上测试品种A.方差的古典分析(ANOVA),其为无治疗差异的全局零假设提供F检验,依赖于如图2(a)所例示的治疗的随机分配。具体来说,ANOVA的基于随机化的判断假定每个可能的分配同样可能。有了这个假设,在零假设下的ANOVA F统计量的分布,简称“零分布”,可以解析地或从随机分布得到(Pitman 1938,Good 2000)。其他统计和程序可以以分析的方式处理,但在这里我们将主要集中在F统计为简单。我们将在稍后更详细地研究随机化分布,并且稍后显示其基本上与分析F分布相同。
或者,考虑如图2(b)所示将品种系统分配到图中。与此类似的系统设计有时用于例如精确农业实验(Piepho等人,2011)。注意,该设计也可以被认为是具有对应于柱的块的完整块设计,以及柱内的处理的系统布置。原则上,这种分配可以完全是偶然发生的,但是完全地发生系统分配的概率是非常小的。如果使用这种系统分配,单因素方差分析F统计量为F = 5.63。但实际上,处理之间没有差异(每种处理是相同的品种A),因此在这种情况下,大的F值仅由图1中产量数据中看到的列的显着的系统空间趋势产生。当将系统设计的处理方法与表1中的随机设计的处理方法进行比较时,得到的偏差也是显而易见的。
使用图2(b)中的设计的普遍理由是每行中的图可以在拖拉机的单个通道中管理。然而,重要的是要注意,在这种情况下,实验单位(随机化单位)是行,而不是图。显然,在这种情况下,绘图必须被认为是伪复制或子样本,因此每次处理只有一个真实复制。此设计的适当ANOVA基于每行的平均值(或总和),并且没有错误自由度,这反映了假复制问题。
图1中的数据显示出强的系统趋势,产量在一个特定方向上增加。为了说明随机化也是有用的,当有一个更不稳定的空间模式,没有容易辨别的系统趋势,图3中的数据被考虑。注意,图3中的产率与图1中的产率完全相同,但是它们的位置相对于图1中的位置而改变。具体地,通过首先对行进行置换然后在行中置换曲线,意味着行的组成保持不变。因此,图2(b)中的系统设计的F值为F = 5.63,这与图1中的数据完全相同,如同品种均值(表2)。对于图2(a)中的随机设计,通过比较F值小(F = 1.36)。两个例子(图1和图3)表明,随机化的失败可能是有和没有明显可辨的系统趋势的问题。
为了获得进一步的洞察,更密切地考虑随机化设计的ANOVA F统计量的零分布是有益的。我们需要引用一个空分布,因为在任何一个试验中使用的治疗标签的特定分配仅仅是通常大量可能分配的一个实例,并且在判断值的时候需要考虑所有这些可能的分配单个F统计量。如前所述,F检验的零分布通常被认为是具有合适的分子和分母自由度的分析F分布(Mead等人,2002)。这个零分布假设在用于试验的随机化方案中,每个可能的处理分配给地块同样可能。或者,这种零分布可以通过如下的排列经验地获得:生成大量(如果可行的话,所有的完整集合)可能分配的品种标签到绘图,并且对于每个分配计算F统计量。这产生ANOVA F统计量的空分布的经验版本(Pitman 1938,Good 2000)。这个随机分布的原理如下:如果没有真正的治疗效果,也就是说,如果每个治疗具有相同的预期值,那么对于实验的预期结果,当我们重新洗牌处理标签到地块的分配。因此,当测试没有治疗效果的零假设时,对应于在实验中使用的特定随机化的F值必须被视为只有一个可能的F值范围的实例,其可以在零假设下预期无治疗效果。图4显示了使用图1中的数据进行100 000次扫描的分布。注意,假设使用了所有可能的随机化,该随机化分布以及系统设计的观察F值。 2b),在使用图3中的数据时是相同的,因此下面的说明同样适用于这两个例子(有和没有系统趋势)。应该清楚的是,图4中的随机化分布实际上是一个零分布,因为我们假设在所有图上事实上测试了相同的品种A.然而,强调的是,随着品种A-E的种子袋未被混合,随机化方法也将是有效的,因为在没有治疗效果的无效假设下,治疗标签总是可交换的(Good 2000)。如果随后的ANOVA将I型错误率控制在标称水平,则在此考虑随机化方法有效。
显着性检验的一般思路是,每当检验统计量的观察值与零分布相比是非典型的,则拒绝零假设。为了评估观察到的F值是多么典型或非典型,我们可以计算来自随机化分布的F值超过或等于实验的F值的次数的比例。这个比例或概率被称为P值。对于图2(b)中的系统设计,随机化P值为P = 0.0071,表明观察到的F = 5.63是一个非常典型的值,相对于在零值下期望的F值的分布假设(图4):只有0.71%的F值预期与系统分配观察到的F值一样大或大。如果观察到的F值在假设的零假设下是非典型的,这是拒绝该零假设的原因。常规阈值是当P值小于a = 0.05时拒绝零假设。随机化P值非常接近于通过参考具有四个分子和15个分母自由度的F分布(P = 0.0057)获得的P值,该分布参数为该实施例的参考空分布。原则上,我们总是可以使用随机化分布进行F检验,但是计算上只需使用分析结果就不那么要求;除非数据显示总体偏离正态性或方差齐性,否则结果在两种情况下将几乎相同。
在两个例子中,系统设计导致非常大的F值,与图4中的随机化分布相比,F值被认为非常典型。因此,无效假设将被这种非随机设计错误地拒绝,例如不随机化时发生的危险。这里重要的关键点是刚刚讨论的空分布(见图4)是F检验的适当参考分布,只有当试验实际上是随机的。只有在这种情况下,每个随机化都是同样可能的,只有在这种情况下,零分布可以从一个经典的随机化论证中得到(Calinski和Kageyama 2000)。事实上,人们可能认为图4中的随机分布不是系统设计的适当参考分布,因为这不能被认为是来自所有可能的完全随机化设计的集合中的随机样本(Kempthorne 1977)。显然,如果研究人员决定选择一个系统设计,如图2(b)所示的四个图的行中所示的处理,剩下的唯一的自由是行之间的处理的排列。但每个这样的排列产生完全相同的F值,因此在这种情况下的参考分布崩溃到单个可能的F值!这个考虑表明,没有有意义的测试可以基于系统设计的随机性论证。
考虑与为随机化分布计算的F统计量相关联的分析P值的分布也是有益的。一个重要的统计事实是,对于F检验(或任何其他显着性检验)是有效的,P值的随机分布必须遵循均匀分布。因此,研究分析P值的随机分布提供了一种特别方便的方法来评估任何显着性检验的适宜性。对于该示例,P值很好地均匀分布(图5),因此测试是有效的。同样地,关于随机化分布,估计的治疗差异未显示,如使用图1中的数据的品种标签A和E(图6)的平均差异的实例所示(本段中讨论的结果是如果我们考虑品种A和B的比较,图3中的数据相同;表2)。分布以零为中心,这正确反映了与两种标记相关的产量来自品种A的事实,因此没有治疗差异。相比之下,对于系统设计,观察到的差异是d = -1.20(表1),其远离随机化分布的中心,因此将被判断为显着的(P = 0.0011)。这表明治疗效果差异估计的严重偏倚可能没有随机化。相反,随机化确保不存在系统误差的主要来源(Cox 1958:7)。此外,随机分布看起来很正常,这就是为什么我们可以安全地使用t检验比较两个治疗方法。 P值可以通过参考t分布或通过在所有观察中置换治疗标签A-E产生的随机化分布来分析计算(我们在这里为了简单起见假设全局零假设是真的,如果只有部分零假设成立,说明A和E的均值是相同的,则只有这两种处理的标签应该被置换,产生相当有限的置换集合;当置换的数量变得太小时,以采用分析零分布)。