我们接着重现NC这篇文章的Figure2,这篇文章里有很多这样的箱线图,这也是这个重现系列重点要讲的内容。原文作者提供了这部分代码,对于所有图提供了详细的数据,可以参考作图。
这里重现的重点在于批量画图,利用循环,可以一劳永逸,一次性画图多个图,省时省力!
1、数据整理
画图数据需要两个文件,一个是表达量数据,列为样本,行为基因。另外一个是注释信息,是关于样本分组的。
表达数据:
样本信息:
2、作图详细过程
第一步加载需要的R包:
library(RColorBrewer)
library(ggpubr)
library(ggplot2)
library(cowplot)
第二部加载数据并进行处理:这里增添一个小细节,也是小编初学R遇到的问题。假设有一个几千行的表达矩阵,我只想挑选几十个基因的表达数据,用Excel的搜索工具显然不现实。用R解决就很简单,首先创建一个需要基因(行名)的向量,然后用它去提取行名为向量的数据即可!
setwd("D:/生物信息学")
Exp <- read.csv("Exp.csv",header=T,row.names=1)#读入源文件
gene <- c("CD28","CD3D","CD8A","LCK",
"GATA3","EOMES","IL23A","CXCL8",
"IL1R2","IL1R1","MMP8","MMP9")#这里我们只选择这几个基因做数据
gene <- as.vector(gene)
Exp <- log2(Exp+1) #因为是FPKM数据,标准化一下
Exp_plot <- Exp[,gene]#提取需要作图得基因表达信息
第三步加载样本信息:
#加载样本信息
info <- read.csv("info.csv",header=T)
Exp_plot<- Exp_plot[info$Sample,]
Exp_plot$sam=info$Type
Exp_plot$sam <- factor(Exp_plot$sam,levels=c("Asymptomatic","Mild","Severe","Critical"))
第四步设置分组的颜色:就如同用prism做图一样,不同组用不同颜色表示。
col <-c("#5CB85C","#337AB7","#F0AD4E","#D9534F")
第五步进行循环:详细的代码解释也注释出来了。
plist2<-list()#创建一个空列表,用来存储循环的产出
for (i in 1:length(gene)){
bar_tmp<-Exp_plot[,c(gene[i],"sam")]#循环提取每个基因表达信息
colnames(bar_tmp)<-c("Expression","sam")#统一命名
my_comparisons1 <- list(c("Asymptomatic", "Mild")) #设置比较组
my_comparisons2 <- list(c("Asymptomatic", "Severe"))#设置比较组
my_comparisons3 <- list(c("Asymptomatic", "Critical"))#设置比较组
my_comparisons4 <- list(c("Mild", "Severe"))#设置比较组
my_comparisons5 <- list(c("Mild", "Critical"))#设置比较组
my_comparisons6 <- list(c("Severe", "Critical"))#设置比较组
pb1<-ggboxplot(bar_tmp,#ggboxplot画箱线图
x="sam",#x轴为组别
y="Expression",#y轴为表达量
color="sam",#用样本分组填充
fill=NULL,
add = "jitter",#添加散点
bxp.errorbar.width = 0.6,
width = 0.4,
size=0.01,
font.label = list(size=30),
palette = col)+theme(panel.background =element_blank())
pb1<-pb1+theme(axis.line=element_line(colour="black"))+theme(axis.title.x = element_blank())#坐标轴修饰
pb1<-pb1+theme(axis.title.y = element_blank())+theme(axis.text.x = element_text(size = 15,angle = 45,vjust = 1,hjust = 1))#横坐标文字设置
pb1<-pb1+theme(axis.text.y = element_text(size = 15))+ggtitle(gene[i])+theme(plot.title = element_text(hjust = 0.5,size=15,face="bold"))#标题设置
pb1<-pb1+theme(legend.position = "NA")#(因为有组图,横坐标分组了,所以不需要设置legend)
pb1<-pb1+stat_compare_means(method="t.test",hide.ns = F,
comparisons =c(my_comparisons1,my_comparisons2,my_comparisons3,my_comparisons4,my_comparisons5,my_comparisons6),
label="p.signif")#显著性检验用t检验,添加不同比较组。详情可以查看stat_compare_means函数帮助信息
plist2[[i]]<-pb1 #将画好的图储存于plist2列表,并不断赋值循环直到结束
}
第六步排列图片,我们选择了12个基因,所以会有12张图,对其进行排列。
plot_grid(plist2[[1]],plist2[[2]],plist2[[3]],
plist2[[4]],plist2[[5]],plist2[[6]],
plist2[[7]],plist2[[8]],plist2[[9]],
plist2[[10]],plist2[[11]],plist2[[12]],ncol=4)#ncol=4表示图片排为几列
最后画出来的图片如下:
效果和原文一摸一样啊,剩下的进行排版修饰即可!学会这个技术可以一劳永逸了,不同一张一张画图,一次性出这么多图。可以用自己的数据试试手!
如果想要详细的数据,可以在公众号留言或者联系作者,说明来意。