给女朋友写的生统资料_Part13

Power(统计功效)

关于power,我觉得下面这张图已经解释的很好了。

13_1.png

当 H0 是正确的时候,拒绝了H0,就是犯了第一类错误。当 H1 是正确的时候,拒绝了 H1,就是犯了第二类错误。然后相对应的,当 H1 是正确(H0是错误的时候)的时候,你接受了 H1(拒绝了H0),就是所谓的power(统计功效)了。

关于power的计算公式,我只是贴出来一下,大家考试的时候可以抄下,具体的我就不讲解了(当然,也是因为我不太懂power的具体计算╮(╯_╰)╭)。

13_2.png
13_3.png

稍微注意的一点就是,如果是双尾的话,n 就变成了
n=\frac{(z_{1-\beta}+z_{1-\alpha/2})^2 \sigma^2}{(\mu_0-\mu_1)^2}
就是 \alpha变成了\alpha/2,当然,你看上面的公式也能算出来。

事实上,我们只需要知道的是,power,数据量,显著性水平(\alpha 值),效应大小四者之间是息息相关的,也是相互制衡的。4个里面知道3个,就可以大致估计出剩下一个了。

R 里面能够计算power的包是pwr包,我们考试应该也会考到这个包的使用。我们具体来看下。

单样本的情况

已知样本的均值标准差。我们假设的H1为 \mu=118**。如果我们想控制第二类错误为0.05,同时第一类错误为0.01**.那么我们需要多少样本量

# 第二类错误是0.05,那么统计功效就是0.95
# 已知了power,已知了第一类错误
# 已知了效应大小

pwr.t.test(d = (test4_mean - 118)/(test4_sd), sig.level = 0.01, type = "one.sample",power = 0.95)

## 
##      One-sample t test power calculation 
## 
##               n = 646.0381
##               d = 0.1664842
##       sig.level = 0.01
##           power = 0.95
##     alternative = two.sided

需要注意的是,对于效应大小(Cohen's d),我们用的是样本均值减去假设的总体均值,再除以标准差。因为大家可以看到,pwr的计算无关乎样本信息,所以对于效应值,我们只有除以标准差,才可以变成一个可以在各种样本中都使用的值。

公式为
d=\frac{\bar{x}-\mu}{s}

两样本的情况

两样本的话,跟单样本差不多。只不过需要注意两点

  • type选择是paired 还是单纯的 two-samp。paired在其余条件相等情况下,power其实是更高的。
  • 效应值的计算

d=\frac{\mu_1 - \mu_2}{sd_{pooled}}

sd_{polled}的计算是
sd_{polled}=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}
但在实际过程中,sd_{polled}比较方便的计算是
sd_{polled}=\sqrt{\frac{s_1^2+s_2^2}{2}}

另外需要注意的是,我们之前的pwr是针对两个样本是一样大小的,如果两个样本的样本量不一样大,就用 pwr.t2n.test

pwr.t2n.test(n1=, n2=, d=, sig.level=, power=, alternative=)

关于第一类错误,第二类错误,power等概念,大家有空可以去读一读《Fundamentals of Biostatistics》的213页左右。这本书真的很好,虽然我也没读几页。

当然,也推荐去读一读协和八公众号上的说人话的统计学系列,上面讲的也很清楚。

参考文章:

The Cohen’s d Formula

What Is And How To Calculate Cohen's d

Effect size

非参数检验

之前的t检验等需要假定你的分布是正态分布。但如果不满足正态性的假设,我们就需要考虑非参数检验了。非参数检验通常检验的不是平均值,而是中位数,相比参数检验而言,比较的意义不是那么的明确。同时,非参数检验的power相比较而言,比较低。

关于非参数检验的方法,还是用一张PPT的图来表示:


13_4.png

但R里面的话,上面的非参数检验只要 wilcox.test() 一个函数就可以解决了

具体的操作相信大家在作业中都已经做过了,就不讲了。

稍微需要注意的一点是,非参数检验的原假设和备则假设是(双尾)
H0:M_1=M_2\\ H1:M_1 \ne M_2
即上面我提到过的,是中位数不相等。

关于非参数检验,还是推荐去看看说人话的统计学系列。

多重矫正

其实一般来说,如果你做了多次的假设检验,就要考虑多重矫正的问题了。因为假设你单次检验的设定的阈值 \alpha 是0.05,那么你做了5次检验后,至少会犯一次错误的概率就是P=1-(1-0.05)^5。可以看到这个概率是很大的。所以对p-value进行矫正还是很重要的。

这里还是不放上原理了(还是因为我太菜了,多重矫正的原理还是没有清楚)。

R里面的多重矫正还是一个函数p.adjust()就可以了:

p.adjust(p, method = p.adjust.methods, n = length(p))

里面的method只要根据题目变换就行了。反正考试常见的题型就是出个表达量矩阵,然后让你用t.test,得到了p-value之后,让你矫正下p.adjust。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容