Power(统计功效)
关于power,我觉得下面这张图已经解释的很好了。
当 H0 是正确的时候,拒绝了H0,就是犯了第一类错误。当 H1 是正确的时候,拒绝了 H1,就是犯了第二类错误。然后相对应的,当 H1 是正确(H0是错误的时候)的时候,你接受了 H1(拒绝了H0),就是所谓的power(统计功效)了。
关于power的计算公式,我只是贴出来一下,大家考试的时候可以抄下,具体的我就不讲解了(当然,也是因为我不太懂power的具体计算╮(╯_╰)╭)。
稍微注意的一点就是,如果是双尾的话,n 就变成了
就是 变成了,当然,你看上面的公式也能算出来。
事实上,我们只需要知道的是,power,数据量,显著性水平( 值),效应大小四者之间是息息相关的,也是相互制衡的。4个里面知道3个,就可以大致估计出剩下一个了。
R 里面能够计算power的包是pwr包,我们考试应该也会考到这个包的使用。我们具体来看下。
单样本的情况
已知样本的均值,标准差。我们假设的H1为 。如果我们想控制第二类错误为0.05,同时第一类错误为0.01**.那么我们需要多少样本量
# 第二类错误是0.05,那么统计功效就是0.95
# 已知了power,已知了第一类错误
# 已知了效应大小
pwr.t.test(d = (test4_mean - 118)/(test4_sd), sig.level = 0.01, type = "one.sample",power = 0.95)
##
## One-sample t test power calculation
##
## n = 646.0381
## d = 0.1664842
## sig.level = 0.01
## power = 0.95
## alternative = two.sided
需要注意的是,对于效应大小(Cohen's d),我们用的是样本均值减去假设的总体均值,再除以标准差。因为大家可以看到,pwr的计算无关乎样本信息,所以对于效应值,我们只有除以标准差,才可以变成一个可以在各种样本中都使用的值。
公式为
两样本的情况
两样本的话,跟单样本差不多。只不过需要注意两点
- type选择是paired 还是单纯的 two-samp。paired在其余条件相等情况下,power其实是更高的。
- 效应值的计算
的计算是
但在实际过程中,比较方便的计算是
另外需要注意的是,我们之前的pwr是针对两个样本是一样大小的,如果两个样本的样本量不一样大,就用 pwr.t2n.test
pwr.t2n.test(n1=, n2=, d=, sig.level=, power=, alternative=)
关于第一类错误,第二类错误,power等概念,大家有空可以去读一读《Fundamentals of Biostatistics》的213页左右。这本书真的很好,虽然我也没读几页。
当然,也推荐去读一读协和八公众号上的说人话的统计学系列,上面讲的也很清楚。
参考文章:
What Is And How To Calculate Cohen's d
非参数检验
之前的t检验等需要假定你的分布是正态分布。但如果不满足正态性的假设,我们就需要考虑非参数检验了。非参数检验通常检验的不是平均值,而是中位数,相比参数检验而言,比较的意义不是那么的明确。同时,非参数检验的power相比较而言,比较低。
关于非参数检验的方法,还是用一张PPT的图来表示:
但R里面的话,上面的非参数检验只要 wilcox.test()
一个函数就可以解决了
具体的操作相信大家在作业中都已经做过了,就不讲了。
稍微需要注意的一点是,非参数检验的原假设和备则假设是(双尾)
即上面我提到过的,是中位数不相等。
关于非参数检验,还是推荐去看看说人话的统计学系列。
多重矫正
其实一般来说,如果你做了多次的假设检验,就要考虑多重矫正的问题了。因为假设你单次检验的设定的阈值 是0.05,那么你做了5次检验后,至少会犯一次错误的概率就是。可以看到这个概率是很大的。所以对p-value进行矫正还是很重要的。
这里还是不放上原理了(还是因为我太菜了,多重矫正的原理还是没有清楚)。
R里面的多重矫正还是一个函数p.adjust()
就可以了:
p.adjust(p, method = p.adjust.methods, n = length(p))
里面的method只要根据题目变换就行了。反正考试常见的题型就是出个表达量矩阵,然后让你用t.test,得到了p-value之后,让你矫正下p.adjust。