独立性和一致性检验 chisq 、McNemar‘s、 kappa2 及可视化

定义

Pearson's chi squared test:

Pearson卡方检验,由著名统计学家Karl Pearson提出,主要是比较两个及两个以上样本构成比以及两个分类变量的关联性的分析。其根本思想是比较理论频数与实际频数的温和程度或拟合优度的问题。广泛应用于1)分类变量的独立性(是否具有相关性)检验中;2)是否服从某个比例的比较检验中。可应用于分类变量(categorical data)的独立性检验中,也可用于分类变量的比较检验中。这两种检验都需要用到R×C列联表(R×C contingency table),其中R表示行(Row),C表示列(Column)。最简单的情形是行与列都是二分类无序变量,这样的数据也称为四格表资料。
卡方检验使用条件:1.随机样本数据; 2.卡方检验的理论频数不能太小。 两个独立样本比较可以分以下3种情况: 1.所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。 2.如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。 3.如果有理论数T<1或n<40,则用Fisher’s检验。 R×C表卡方检验应用条件: 1.R×C表中理论数小于5的格子不能超过1/5;2.不能有小于1的理论数。我的实验中也不符合R×C表的卡方检验。可以通过增加样本数、列合并来实现。

McNemar‘s test(McNemar's test for correlated proportions,也叫配对卡方检验) 和Kappa 一致性检验:

两种方法均用于配对资料率的检验,如检验两种治疗方式。二者区别:1、Kappa检验旨在评价两种方法是否存在一致性;配对χ2检验主要确定两种方法诊断结果是否有差别;2、Kappa检验会利用列联表的全部数据,而配对χ2检验只利用“不一致“数据;3、Kappa检验可计算Kappa值用于评价一致性大小,而配对χ2检验只能给出两种方法差别是否具有统计学意义的判断。Kappa值判断标准:Kappa≥0.75,说明两种方法诊断结果一致性较好; 0.4≤Kappa<0.75,说明两种方法诊断结果一致性一般; Kappa<0.4,说明两种方法诊断结果一致性较差。

使用示例

image.png

Rscript this R <输入文件> <需要检验的变量列表,来自于输入文件的列名> <输出路径> <输出文件前缀> <基线/金标准,来自于输入文件的列名,“需要检验的变量列表”均与该变量进行检验>

Rscript chisq.test.r data_merge.txt list /lustre/work/user/zhou.yang/project/10_ZL_multi/2_analysis/6_single_sample/10_shannon_diff_mutation_set/6.SVV/group_by_diff_method_compare/statist_test_result  Common_mutation Common_mutation

infile文件示例

image.png

list文件示例

image.png

代码:

args = commandArgs(T)
if (length(args) !=5){
    print("Rscript this R <infile> <list> <outdir> <prefix> <baseline>")
    q()
}

library(data.table)
library("irr")
data<-read.table(args[1],sep="\t",header=T,encoding='UTF-8',check.names=F,row.names=1)
list<-read.table(args[2],sep="\t",header=F,encoding='UTF-8',check.names=F)
len=dim(list)[1]
print(dim(data))
header<-paste("Item","X-squared","df","p-value",sep="\t")
write.table(header,file=(paste(args[3],"/",args[4],".chi-square_test_result.xls",sep="")),sep="\t",quote=F,row.names=F,col.names=F,append=F)
header<-paste("Item","X-squared","df","p-value",sep="\t")
write.table(header,file=(paste(args[3],"/",args[4],".mcnemar-square_test_result.xls",sep="")),sep="\t",quote=F,row.names=F,col.names=F,append=F)
header<-paste("Item","method","Kappa","p-value",sep="\t")
write.table(header,file=(paste(args[3],"/",args[4],".kappa-square_test_result.xls",sep="")),sep="\t",quote=F,row.names=F,col.names=F,append=F)

for(i in 1:len){
    id=as.character(list[i,])
    data1<-as.data.frame(t(data))
    traits<-as.data.frame(t(data1[which(rownames(data1)==id),]))
    traits$Group=data[,which(colnames(data)==args[5])]
    colnames(traits)<-c("Group1","Group2")
    print(dim(traits))
    #traits$Group1=as.factor(traits$Group1)
    #traits$Group2=as.factor(traits$Group2)
    traits<-na.omit(traits)
    traits <- subset(traits, traits$Group2 != "")
    #生成4联表
    four_table<-xtabs(~traits$Group1+traits$Group2,data=traits)
#独立性检验/差异检验:卡方检验
    #理论频数T<5(chisq.test(four_table)$expected)时,进行连续性校正的卡方进行检验:correct=TURE。
    k<-"FALSE"
    judge<- chisq.test(four_table)$expected >5
    if (k %in% judge){chisq_v<-chisq.test(four_table,correct=T)}
    else{chisq_v<-chisq.test(four_table,correct=F)}
#   print(chisq.test(four_table)$expected)
#   print(chisq_v)
    chisq_va<-paste(id,chisq_v$statistic[[1]],chisq_v$parameter[[1]],chisq_v$p.value,sep="\t")
    write.table(chisq_va,file=(paste(args[3],"/",args[4],".chi-square_test_result.xls",sep="")),sep="\t",quote=F,col.names=F,row.names=F,append=T)

#一致性检:配对卡方检验(McNemar 检验)
    mcnemar_v<-mcnemar.test(four_table,correct=T)
    mcnemar_va<-paste(id,mcnemar_v$statistic[[1]],mcnemar_v$parameter[[1]],mcnemar_v$p.value,sep="\t")
    write.table(mcnemar_va,file=(paste(args[3],"/",args[4],".mcnemar-square_test_result.xls",sep="")),sep="\t",quote=F,col.names=F,row.names=F,append=T)


#一致性检:kappa检验:对于仅探讨阳性率是否相同,可采用配对卡方检验(又称McNemar检验);如果探讨结果是否具有一致性,则采用Kappa检验。通常,在诊断、检验领域,Kappa检验更为多见。
#Kappa≥0.75,说明两种方法诊断结果一致性较好;0.4≤Kappa<0.75,说明两种方法诊断结果一致性一般;Kappa<0.4,说明两种方法诊断结果一致性较差。
    kappa_v<-kappa2(traits,'unweighted')
    #Weight参数是函数的重点,如果有多个检查项目中有一个是为0的时候需要加权检验,其他时候一般都是非加权检验。
    kappa_va<-paste(id,kappa_v$method,kappa_v$value,kappa_v$p.value,sep="\t")
    write.table(kappa_va,file=(paste(args[3],"/",args[4],".kappa-square_test_result.xls",sep="")),sep="\t",quote=F,col.names=F,row.names=F,append=T)
}

输出文件

image.png

image.png

image.png

image.png

一致性结果可视化(基于Kappa检验结果)

结果示例:


image.png

脚本

args = commandArgs(T)
if (length(args) !=4){
    print("Rscript this R <infile> <X> <Y> <outfile>")
    q()
}


library("ggplot2")

dat<-read.table(file=args[1],header=T,sep="\t")
data<-na.omit(dat)

data$judge <- ifelse(data$kappa.value >=0.75,"Good",ifelse(data$kappa.value >=0.4,"Moderate","Bad"))
data$judge <- as.factor(data$judge)
data$kappa <- data$kappa.value
data1<-data[data$P.value < 0.05,]
pdf(file=args[4],height=4,width=10)
ggplot(data=data) + geom_point(mapping = aes(x = factor(get(args[2]),levels=as.factor(unique(get(args[2])))), y = factor(get(args[3]),levels=as.factor(unique(get(args[3])))), size=kappa,color=judge))+theme_bw()+theme(panel.grid =element_blank())+ theme(axis.ticks= element_blank()) + scale_color_manual("Consistency (Cohen's Kappa)",values=c(Good = "red2", Moderate = "orange",Bed="Blue"))+scale_size_continuous("Kappa consistency Value")+ geom_point(data= data1,alpha=0.9,pch=21,colour="black",aes(x = factor(get(args[2]),levels=as.factor(unique(get(args[2])))), y = factor(get(args[3]),levels=as.factor(unique(get(args[3])))),size=kappa))+xlab("")+ylab("")+guides(size = guide_legend(order = 1))+theme(axis.text.x = element_text(size=12))+ theme(axis.text.x = element_text(angle = 45, hjust = 1, color = "black", size = 9),axis.title.y = element_text(size=10))+ guides(color = guide_legend(override.aes = list(size = 4)))
#ggplot(data=data) + geom_point(mapping = aes(x = factor(get(args[2]),levels=as.factor(unique(get(args[2])))), y = factor(get(args[3]),levels=as.factor(unique(get(args[3])))), size=kappa,color=judge))+theme_bw()+theme(panel.grid =element_blank())+ theme(axis.ticks= element_blank())+theme(panel.border = element_blank()) + scale_color_manual("Consistency",values=c(Good = "red2", Moderate = "orange",Bed="Blue"))+scale_size_continuous("Kappa consistency Value")+ geom_point(data= data1,alpha=0.9,pch=21,colour="black",aes(x = factor(get(args[2]),levels=as.factor(unique(get(args[2])))), y = factor(get(args[3]),levels=as.factor(unique(get(args[3])))),size=kappa))+xlab("")+ylab("")+guides(size = guide_legend(order = 1))+theme(axis.text.x = element_text(size=12))+ theme(axis.text.x = element_text(angle = 45, hjust = 1, color = "black", size = 9),axis.title.y = element_text(size=10))+ guides(color = guide_legend(override.aes = list(size = 4)))

dev.off()

使用方法:


image.png
Rscript this R <infile> <X> <Y> <outfile>
Rscript this R <输入文件> <X轴> <Y轴> <输出文件>

使用示例:
Rscript kappa_Bubble_plot.r kappa.format shannon Group kappa_Bubble_plot.pdf
输入文件示例(统计分析的结果需要整理一下):


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 227,428评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,024评论 3 413
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 175,285评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,548评论 1 307
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,328评论 6 404
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,878评论 1 321
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,971评论 3 439
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,098评论 0 286
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,616评论 1 331
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,554评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,725评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,243评论 5 355
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,971评论 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,361评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,613评论 1 280
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,339评论 3 390
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,695评论 2 370

推荐阅读更多精彩内容