多重比较校正

本文部分转载于：http://sealhuang.github.io/multiple-comparsion

主要内容来自wikipedia以及这个网页.

假设我们手上有一枚硬币，想通过抛10次硬币的方法检验它的正反面分布是否均匀，结果发现扔10次，有9次国徽朝上。此时我们打算下结论说它的分布不均匀，恐怕被人动了手脚。但这个判断的正确性有多大，在统计上就需要用 p-value 来衡量。p-value 就是在原假设（Null hypothesis）为真时，得到和试验数据一样极端（或更极端）的统计量的概率；它本质上控制假阳性率（ false positive rate，FPR：第Ⅰ类错误，即实际无病或阴性，但被判为有病或阳性的百分比)。我们常说的 p 小于0.05即是说发现的现象为假阳性结果的概率小于5%。

$\color{green}{FWE：整体错误校正}$

如果我们手上有10000枚上文提到的相同的硬币要检验呢？假设针对每枚硬币依然采用以上的方法，则这10000次检验完全不出错的概率只有 (1 - 0.05) ** 10000。这在很多情况下不能接受的。此时我们面对的不再是 single test 问题，而是 multiple test。需要控制的是 family wise error rate (FWER)。一种很经典的控制FWER的方法是 Bonferroni correction。比如我们设定FWER为0.05，则可以将所有10000次检验中，出现错误的概率控制在5%以内。

$\color{green}{ Bonferroni校正：简单的说就是用0.05除去多重比较的次数，得到一个比较低的阈限。但是这种方法往往比较苛刻，只在比较数目比较少的时候适用。}$

通常情况下， 若只做一次统计检验（比较或相关等） ， 一般设定检验水准 a = 0.05
即1次检验犯错误的概率为5%， 则1次检验不出错的概率为1-5% =95%
若做100次检验， 完全不出错的概率为（1-5%）^100 = 0.59%（小于1%!)， 至少犯一次错的概率为1-0.59% = 99.41%（接近100%！ ）
如果希望犯错一次概率不超过5%， 怎么办？
              （1-a）^n >= 0.95     （（1-a）^n 当n足够大时，这个等式可以化简为1-na）
              （1-a）^n >= 1 – na， 1 – na >= 0.95
若n = 100， 计算得到a <= 0.05/100 = 0.0005
也就是说， 只有每一次检验犯错误的概率小于0.0005， 才能保证100次检验总的犯错误的概率小于5%——Bonferroni校正
VBM分析全脑约480000个体素参与统计检验， 则每次检验犯错误的概率需小于5%/480000？

但面对 fMRI 这样的数据，Bonferroni correction 则显得不太合适了。 $\color{red}{Bonferroni correction 是否适用，取决于数据是否服从一个基本假设：}$

即每次 test 是否独立。像上面举的抛硬币的例子，每抛一次，显然都是独立事件。但像 fMRI 这样邻近 voxel 的信号往往具有高相关的数据，Bonferroni 矫正显然不太适用了。

image.png

为了针对这种情况，人们选择使用了 Random-field Theory (RFT) 进行 FWE correction。其基本假设就是空间邻近的 voxel 具有相关（也可以说是存在由空间平滑造成的相关），则在检验前，先估算数据的平滑程度，再基于这一指标计算某个 voxel 不是由随机因素引起激活的概率。这种方法相对前一种相对宽松很多，但研究发现，其假设要求平滑程度至少要为数据最小空间分辨率的2-3倍（而且平滑程度越大，检验效果越宽松），使得许多研究无法采用此方法，同时也有研究表明这种矫正方式同样过于严格。

RFT是SPM软件包的默认校正方法，当你选择“FWE correction”的时候，你采用的就是RFT校正。

$\color{green}{FDR：错误发生率}$

鉴于以上问题，以及对 FWE 概念的理解，随之我们采用了一种新的方法，FDR（False Discovery Rate）错误控制方法。FWE校正是为了控制N次统计比较后，随机情况下可能产生的假阳性事件。它可以确保任何假阳性出现在我们结果中的概率在5%以内，也就是在结果中几乎没有假阳性，每个显著的体素都是真正的被激活。而这与实际情况并非完全一致，因为在数据分析的过程中，每一步都会带入一些干扰而使得小部分本没有激活的体素变的显著了。也就是说，研究者实际上是可以接受结果中存在一定的假阳性，而这正是FWE校正想控制的；但研究者也都有一个信念：我们的数据是存在噪声的，我们希望知道这些显著的结果中，有多少是真的。

与FWE校正不同，FDR校正并不保证你的结果中没有假阳性，而是将假阳性的结果控制在很小的范围（如5%）。从二者的名字上，也可见差别。如果FDR校正后，你有100个体素激活了，我们可以肯定其中5个是假阳性的，但是你并不知道是哪5个。相对来说，FDR校正要比RFT校正更宽大一点，但是每个研究者必须知道他们付出的代价是，结果中有一些假阳性的体素。SPM和AFNI软件包中都有FDR校正的方法。

FDR 方法有效的控制了在这些阳性结果中的错误出现率。比如在上文中提到的10000个检验中，只发现1000个阳性结果，即硬币质量分布不均，则若控制FDR的q-value为0.05时，只对这1000个检验进行操作，并保证最后经过校正的检验结果中出现假阳性的结果的数量不多于50个（1000 * 0.05）。相对 FWE，FDR 在对结果的控制上显然要宽松很多，同时也给研究带来了更多的“有效”结果。需要提一下的是，在 FDR 校正中，对于 p-value 最小的检验，其校正的力度最大，随 p-value 增大，校正力度逐渐减小，这也体现了其减少假阳性结果的目的。

image.png