在统计学中,有两个重要概念:p值和显著性水平(alpha level)。
当你拥有一个样本,你关心总体的均值,你想通过这个样本的均值推断出总体的均值。这个样本到底够不够格去代表总体噢?依据是什么?
为了回答这个问题,我们可以进行假设检验。假设样本的均值为18,标准差为2,总体均值为20。我们知道,如果我们从总体中重新抽取另一个样本,其均值不太可能完全等于18,可能会稍微大一些或小一些(差距大小取决于样本量,你可以思考一下为什么)。这种差异被称为随机抽样误差或偶然误差。如果抽取的样本正好是由于偶然因素而与总体差异较大,那么我们相信总体的均值仍然是20。但实际上,我们无法确定这是否是偶然的。因此,我们首先需要计算一个值,即偶然产生这种差异的概率有多大。如何计算呢?根据中心极限定理,样本均值的抽样分布近似服从正态分布,然后根据转换(如z转换、t转换)将统计量转化为标准正态分布(或t分布)的统计量。然后,我们可以根据曲线下的面积来计算“取得该值或更极端值的概率”,这个概率就是p值。那么alpha level(也称为第一类错误)有什么用呢?实际上,alpha level是一个基准值,在进行假设检验的开始时就要声明。这是一个衡量概率“多小算小”的标准。
例如,假设我们设定alpha level为5%。这意味着我们可以接受有5%(包括5%)的概率这种差异是由偶然引起的。
如果计算得到的p值很大,比如0.5,那就意味着这种差异有50%的概率是由偶然引起的,这个概率太大了,所以我们不拒绝原假设。如果计算得到的p值很小,比如0.001,那就意味着这种差异有0.1%的概率是由偶然引起的,也就是说很大程度上不是偶然的!这时候我们就拒绝原假设!
简而言之,p值是根据样本数据计算得出的一个概率值,用于衡量观察到的差异是否由偶然因素引起。而alpha level是我们预先设定的一个阈值,用来决定在什么情况下拒绝原假设。
然而,为什么alpha level又叫第一类错误呢,因为概率低的事件也有可能发生,比如我们观察到的一个差值真的是由于那5%的偶然发生的,那我们就犯了第一类错误,我们拒绝了真的零假设。
如果我解释得不清楚请移步去看《statistics in plain english》中文名应该是白话统计学,看英文版比较好。