【统计笔记】常用统计方法——卡方检验(独立性检验)

总结:
使用条件:定类变量,大于等于两组
数据集存放:原始数据直接用;统计过的数据需要加权个案
卡方值的选择:需要根据样本量n和格子中的理论数E来定。通常2*2数据量少的话用费舍卡方。

一 简介

MBA智库-百科-卡方检验详情

  • 卡方检验主要应用于定类变量和定类变量之间的关系,比如验证不同性别下使用电脑品牌是否存在差异。
  • 也称独立性检验,是一种非参数假设检验。即利用卡方分布去做的假设检验。
  • 关键词:
  1. 卡方分布
    统计学中三大分布,卡方分布,t分布,F分布,都是由正态分布推导而来。
  2. 假设检验
  3. 类别变量
  4. 自由度 Df=(r-1)(c-1)
  5. 卡方值与P值
    P值:小拒大接
  6. 非参数检验
  7. 显著性水平:在原假设成立下,拒绝原假设的概率,即犯第一错误的概率。

二 原理

(一)卡方检验统计量

image.png
  • 小结
  1. 分子代表实际值与期望值的偏差(平方是为了消除负值影响),分母代表标准化。因此卡方统计量的值越小,代表观测频数与理论频数越接近;
  2. 因为我们的原假设是:两个变量是独立的。(通常原假设是我们想要推翻的,我们想证明的结论一般放在备择假设中)因此如果卡方统计量的值越大,对应的P值越小,小拒大接,则拒绝原假设,说明两个变量相关;反之,卡方值越小,接受原假设,说明两变量是独立的
    (为什么?我的理解:卡方值越小,偏差小,说明这两个变量越符合卡方分布,而卡方分布的前提就是变量间的独立性,因此证明这两个变量是独立的)

(二)基本流程

image.png

三 使用工具

SPSS卡方检验

  1. 如何存放数据集?
    在使用SPSS卡方检验时,有两种存放数据集方式。
    第一种使用的是已经加工好的数据,需要创建三个变量值(类别1,类别2,数量)。此时一定要先对频数加权个案,就是要告诉spss实际样本很多,有相应的频数之“和”那么多;如果不选择,spss就会默认一行一个样本数据;

第二种是直接使用原始样本(即有多少样本量就有多少行)


image.png
  1. 使用卡方检验有哪些前提条件?

R×C表卡方检验应用条件:
(1)R×C表中理论数小于5的格子不能超过1/5;
(2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。

  1. 使用哪个卡方值更准确?

需要结合X和Y的类别个数,样本量,以及期望频数格子分布情况等,选择最终应该使用的卡方值。
n代表总样本量;E代表期望频数;R代表X的类别个数;C代表Y的类别个数。
通常情况下,共有三种卡方值,分别是Pearson卡方,yates校正卡方,Fisher卡方;优先使用Pearson卡方,其次为yates校正卡方,最后为Fisher卡方。

  • 针对2*2(R=2,C=2)
  • 所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。
  • 如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。
  • 如果有理论数T<1或n<40,则用Fisher’s检验。
  • 针对R*C(R,C中任意一个大于2;且R>=2,且C>=2)

E全部>1 且 1 <=E<5格子的比例小于20% 则使用Pearson卡方,否则使用yates校正卡方。(?)

  1. 文字分析描述怎么写?
    从上表可知,类别1与类别2在统计学意义上存在显著性差异(χ²=7.054,p =0.029 < 0.05)。具体描述再通过对比百分比寻找差异。
    如果想了解两个类别的相关强度,在SPSS交叉表-统计量-勾选相关性,查看相关系数。(弱相关、中度相关和强相关的分解线系数分别为0.1,0.3,0.5)
  2. 卡方检验的缺陷
    卡方检验只能判断各组间是否存在差异,如果想要进一步确认具体是哪些组之间存在了差异,需要对结果更深入分析,即使用两两比较,见SPSS:多个样本率的卡方检验及两两比较
  3. SPSS非参数检验中的卡方检验有什么区别?
    简单来说,交叉表是多变量的交叉,非参数中的卡方检验是单个变量的差异分析。比如检验商场一周从周一到周日每天人流量是否有差异。
    知乎-踩坑总结
    笔记18:SPSS交叉表卡方与非参数卡方检验有何区别?附案例

Python-卡方检验

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,265评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,078评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,852评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,408评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,445评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,772评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,921评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,688评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,130评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,467评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,617评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,276评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,882评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,740评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,967评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,315评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,486评论 2 348