科普讲堂丨科研民工与“p值”一生的羁绊,从懂它开始(一)

作为一个科研界的搬砖工,p 值实在是一个耳熟能详的名词。找差异基因要看 p 值,做富集分析要看 p 值,不同样本处理如用药前后效果分析也要用到 p 值。p 值应用如此广泛,想必包括小编在内的各位搬砖人,肯定有过不止一次的念头,想要搞清楚 p 值的来龙去脉。p 值到底怎么来的,它跟我们常说的各种检验又是什么关系?为什么现在有观点认为 p 值不准,p 值需要校正吗?

各位看官如果有兴趣,就跟着小编一起来理一理吧。

小编一直有个一夜暴富的梦想,思来想去,小编决定买彩票。概率老师告诉我,这“不可能”。可是,这个不可能是怎么定义的?

本着严谨的思维,小编决定做个科学实验。假设,我有可能通过买彩票一夜暴富(零假设),那么这件事情发生的概率(p值)是多少呢?以双色球为例, 一等奖(6+1)中奖概率为:红球33选6乘以蓝球16选1=1/17721088=0.0000056%。概率老师告诉我,如果一件事情发生的概率很小,那么我们就认为这件事不可能发生(备择假设)。

从这件司空见惯的小事,我们可以理出如下思路,怎么对一件事情进行预测。首先,我们需要进行一个零假设,然后,算出这件事发生的概率 p 值,给定一个阈值,比如0.05,当 p<0.05,我们认为这件事不可能发生,那么只能是它的对立面备择假设成立。所以,这个 p 值,其实就是一个概率。这个分析思路看上去也很简单,可是问题来了,p 值到底怎么算?彩票中奖概率当然好算,教科书经典问题,那么其他的呢?这又引起另一个让人头疼的问题。

我们知道,我们所做的一切判断都是基于已有的客观事实,在科研领域,自然是那一堆堆的数据,那么如何从这些数据中做出判断呢,自然是找规律。怎么找规律?数据分布给我们指明了道路。让人头疼的卡方检验,t 检验等等一系列都是由卡方分布,正态分布延伸而来的分析方法。总结一下,从拿到数据,到最后做出判断,需要经历以下过程:

为了更形象的说明这个过程,小编引用某知乎作者张自达的一个t检验的例子。

例子

为了更形象的说明这个过程,小编引用某知乎作者张自达的一个 t 检验的例子。

假设有一批均值为10的样本数据,符合正态分布。我们抽其中10个样本检测,想看下这10个样本能否代表这批样本数据。下面是我们的分析过程:

第一步,拿到实验数据,总体样本均值为10,抽样样本量为10;

第二步,确定样本分布为正态分布,作出零假设,认为抽样样本可以代表总体样本;

第三步,由于总体样本均值已知,总方差未知,所以采取t检验的方法,用样本方差代替总方差,抽样样本自由度为9,先计算t-检验的统计量

根据这个 t 值和自由度,我们可以算出 p 值,见下图。

p=2×0.07417=0.14834

第四步,得出结论,以 p<0.05 为阈值,本例中 p>0.05,拒绝原假设,因此,10个抽样样本并不能反应总体样本情况。

看到这里,可能各位看官又和小编一样头大了,庆幸的是,p 值计算已经整合到检验方法中,并整合到分析软件中,实际分析中,这些都是不需要自己算的,我们只需要选择合适的检验方法,甚至合适的分析软件就可以,小编只是为了更形象的说明p值得到过程,所以找到这个比较简单的例子。

p 值的来龙去脉,小编算是大概理清楚了,那么又为什么要对 p 值进行校正呢?

以我们常见的差异表达基因来为例,当我们对其中一个基因进行分析,以 p<0.05 为阈值,我们认为在这个基因上,两个比较组存在差异,这其中只有不到5%出错的概率,我们认为这是显著差异的。但是真正生物分析中,我们不可能只分析一个基因,对于上万的基因数,即便是5%的错误率,以1000个差异基因为例,也会有50个假阳性的结果,因此,FDR(false discovery rate)被提出来,用以控制假阳性的产生。假阳性的控制方法有很多,所以有 q value,p adjust,那么多不同的名词,小编会在后面的文章中继续说明。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容