显著性检验与p值

1.显著性检验

        无论从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法,一直被广泛应用。笔者并非统计学专业出身,一直以来对显著性检验的原理及应用困惑不解。

(1)什么是显著性检验?

        “显著性检验”的英文名称是“significance test”。在统计学中,显著性检验是“统计假设检验”(Statistical hypothesis tesing)的一种,显著性检验是检测科学实验中的实验组与对照组之间是否存在差异以及差异是否显著的办法。“统计假设检验”指出了“显著性检验”的前提条件是“统计假设”,换言之“无假设,不检验”。任何人在使用显著性检验之前必须知道假设是什么。一般而言,把要检验的假设称之为原假设,记为H0,把与H0相对应的假设称之为备择假设,记为H1。
        如果原假设为真,而检验的结论却劝你放弃原假设,此时,我们把这种错误称之为第一类错误。通常把第一类错误出现的概率记为\alpha
        如果原假设不为真,而检验的结论却劝你接受原假设。此时,我们把这种错误称之为第二类错误,通常第二类错误出现的概率记为\beta
        通常只限定犯第一类错误的最大概率α, 不考虑犯第二类错误的概率β。我们把这样的假设检验称为显著性检验,概率α称为显著性水平。显著性水平是数学界约定俗成的,一般有α =0.05,0.025.0.01这三种情况。代表着显著性检验的结论错误率必须低于5%或2.5%或1%(统计学中,通常把在现实世界中发生几率小于5%的事件称之为“不可能事件”)。

(2)为什么做显著性检验?

因为我们想要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。

2.卡方检验

        卡方检验(Chi-Square Test)在大数据技术场景中,通常用来检验某个变量或特征是不是和应变量有显著关系。
举例,我们要观察性别和在线买不买生鲜食品有没有关系。通过在线上生鲜市场收集数据,得到下面的表格:
观察到的现象:

总计
线上不买生鲜 527 72 599
线上购买生鲜 206 102 308
总计 733 174 907

通过上表我们发现有66%(599/907)的人不在线上购买生鲜,34%的人线上购买生鲜,根据这一比例,我们可以得到男女不同性别是否线上购买生鲜的理论分布数据:

总计
线上不买生鲜 484 115 599
线上购买生鲜 249 59 308
总计 733 174 907

卡方的计算公式:
X^{2}=\Sigma \frac{(observed-expected)^2}{expected}
X^2=\frac{(574-484)^2}{484}+\frac{(72-115)^2}{115}+\frac{(206-249)^2}{249}+\frac{(102-59)^2}{59}=58.4
自由度:(行数-1)*(列数-1)=1
置信度:90%
查表格的:性别与是否线上购买生鲜是有关系的。

3.p值

        假设检验是推断统计中的一项重要内容,在假设检验中长常见到P值(P-value,Pr),P值是进行检验决策的一个重要依据。
        P值即概率,是反映某一事件发生的可能性大小。在统计学中根据显著性检验得到的P值,一般以P<0.05为有统计学差异,P<0.01为有显著统计学差异,P<0.001为有极其显著统计学差异。其含义是样本间的差异由抽样误差所致的概率小于0.05、0.01、0.001。
        计算出P值后,将给定的α与P 值比较,就可作出检验的结论:
如果α > P值,则在显著性水平α下拒绝原假设。
如果α ≤ P值,则在显著性水平α下不拒绝原假设。
从某总体中抽
⑴、这一样本是由该总体抽出,其差别是由抽样误差所致;
⑵、这一样本不是从该总体抽出,所以有所不同。
如何判断是那种原因呢?统计学中用显著性检验来判断。其步骤是:
⑴、建立检验假设(又称无效假设,符号为H0):如要比较A药和B药的疗效是否相等,则假设两组样本来自同一总体,即A药的总体疗效和B药相等,差别仅由抽样误差引起的碰巧出现的。⑵、选择适当的统计方法计算H0成立的可能性即概率有多大,概率用P值表示。⑶、根据选定的显著性水平(0.05或0.01),决定接受还是拒绝H0。如果P>0.05,不能否定“差别由抽样误差引起”,则接受H0;如果P<0.05或P <0.01,可以认为差别不由抽样误差引起,可以拒绝H0,则可以不拒绝另一种可能性的假设(又称备选假设,符号为H1),即两样本来自不同的总体,所以两药疗效有差别。

参考链接
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,607评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,239评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,960评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,750评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,764评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,604评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,347评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,253评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,702评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,893评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,015评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,734评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,352评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,934评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,052评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,216评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,969评论 2 355

推荐阅读更多精彩内容

  • 1.为什么要做显著性检验: 对于一项抽样的AB实验,在对实验结果进行分析时,不能仅凭两个结果就定结论,为什么呢?因...
    Ai北极星阅读 8,392评论 0 3
  • 通常在研究中,我们会对已有的一些结论或者主张抱有合理的质疑 reasonable doubt,此时该如何通过概率统...
    拓季阅读 11,494评论 1 17
  • 假设检验也叫显著性检验,是以小概率反证法的逻辑推理,判断假设是否成立的统计方法,它首先假设样本对应的总体参数(或分...
    温柔乡_英雄冢阅读 6,582评论 0 2
  • 假设检验 1、原假设和备选假设的建立 原假设:在假设检验中,我们首先对总体参数做一个尝试性的假设。 备选假设:定义...
    马路仔阅读 1,142评论 0 0
  • 假设检验也叫显著性检验,是以小概率反证法的逻辑推理,判断假设是否成立的统计方法,它首先假设样本对应的总体参数(或分...
    井底蛙蛙呱呱呱阅读 120,080评论 4 41