R 数据可视化 02 | 火山图

一. 示例数据准备

下载:链接:https://pan.baidu.com/s/1tKR943efKOn7-TW_892KLg
提取码:wbk6

文件说明

示例数据,其中数据均为虚拟数据,与实际生物学过程无关

文件名:dataset_volcano.txt

列分别为基因 (gene),差异倍数(logFC),t-test的P值(P.Value)

二. 环境需求

Rstudio:
如果系统中没有 Rstudio,先下载安装:https://www.rstudio.com/products/rstudio/download/#download

ggplot2包:

如果没有安装该R包,执行以下代码:

install.packages('ggplot2')

三. 绘制火山图

1. 火山图
# 执行前设置====================================
# 清空暂存数据
rm(list=ls())
# 载入R包
library(ggplot2)
# 设置工作目录
setwd("E:/R/WorkSpace/baimoc/visualization")


# 整理数据集====================================
# 参数'./resource/dataset.txt',表示载入E:/R/WorkSpace/baimoc/visualization/resource/dataset_heatmap.txt
dataset <- read.table('resource/dataset_volcano.txt',header = TRUE)

# 设置pvalue和logFC的阈值
cut_off_pvalue = 0.0000001
cut_off_logFC = 1
# 根据阈值分别为上调基因设置‘up’,下调基因设置‘Down’,无差异设置‘Stable’,保存到change列
# 这里的change列用来设置火山图点的颜色
dataset$change = ifelse(dataset$P.Value < cut_off_pvalue & abs(dataset$logFC) >= cut_off_logFC, 
                     ifelse(dataset$logFC> cut_off_logFC ,'Up','Down'),
                     'Stable')
# 绘制火山图====================================
ggplot(
  #设置数据
  dataset, 
  aes(x = logFC, 
      y = -log10(P.Value), 
      colour=change)) +
      geom_point(alpha=0.4, size=3.5) +
      scale_color_manual(values=c("#546de5", "#d2dae2","#ff4757"))+
  
  # 辅助线
  geom_vline(xintercept=c(-1,1),lty=4,col="black",lwd=0.8) +
  geom_hline(yintercept = -log10(cut_off_pvalue),lty=4,col="black",lwd=0.8) +
  
  # 坐标轴
  labs(x="log2(fold change)",
       y="-log10 (p-value)")+
  theme_bw()+
  
  # 图例
  theme(plot.title = element_text(hjust = 0.5), 
        legend.position="right", 
        legend.title = element_blank()
)
2. 标记基因的火山图
# 执行前设置====================================
# 清空暂存数据
rm(list=ls())
# 载入R包
library(ggplot2)
# 设置工作目录
setwd("E:/R/WorkSpace/baimoc/visualization")


# 整理数据集====================================
# 参数'./resource/dataset.txt',表示载入E:/R/WorkSpace/baimoc/visualization/resource/dataset_heatmap.txt
dataset <- read.table('resource/dataset_volcano.txt',header = TRUE)

cut_off_pvalue = 0.0000001
cut_off_logFC = 1
dataset$change = ifelse(dataset$P.Value < cut_off_pvalue & abs(dataset$logFC) >= cut_off_logFC, 
                     ifelse(dataset$logFC> cut_off_logFC ,'Up','Down'),
                     'Stable')
p<-ggplot(
  #设置数据
  dataset, 
  aes(x = logFC, 
      y = -log10(P.Value), 
      colour=change)) +
      geom_point(alpha=0.4, size=3.5) +
      scale_color_manual(values=c("#546de5", "#d2dae2","#ff4757"))+
  
  # 辅助线
  geom_vline(xintercept=c(-1,1),lty=4,col="black",lwd=0.8) +
  geom_hline(yintercept = -log10(cut_off_pvalue),lty=4,col="black",lwd=0.8) +
  
  # 坐标轴
  labs(x="log2(fold change)",
       y="-log10 (p-value)")+
  theme_bw()+
  
  # 图例
  theme(plot.title = element_text(hjust = 0.5), 
        legend.position="right", 
        legend.title = element_blank()
)

# 将需要标记的基因放置在label列
# 这里设置logFC值大于5的差异基因来标记
# !!!需要注意的是标记的基因不能太多,Rstudio容易卡死
dataset$label = ifelse(dataset$P.Value < cut_off_pvalue & abs(dataset$logFC) >= 5, as.character(dataset$gene),"")
p+geom_text_repel(data = dataset, aes(x = dataset$logFC, 
                                      y = -log10(dataset$P.Value), 
                                      label = label),
                  size = 3,box.padding = unit(0.5, "lines"),
                  point.padding = unit(0.8, "lines"), 
                  segment.color = "black", 
                  show.legend = FALSE)

四. 保存为图片

  • 这里可导出像素图和PDF,也可拷贝到PS调整

  • 选择合适的文件格式,调整合适长宽,印刷或投稿选PDF,TIFF,EPS就好

  • 文件默认存储在刚刚设置的工作目录里

五. 详细参数设置说明

1. 设置工作目录
setwd("E:/R/WorkSpace/baimoc/visualization")

在R的执行过程中,为了方便,需要指定一个获取文件和输出文件所在的目录,这样就不需要每次设置全路径,只需要指定相对目录

setwd("E:/R/WorkSpace/baimoc/visualization")的意思就是设置工作目录为E:/R/WorkSpace/baimoc/visualization

2. 载入数据
dataset <- read.table('resource/dataset_volcano.txt',header = TRUE)

因为工作目录已经设置,如果要获取E:/R/WorkSpace/baimoc/visualization/resource/dataset_volcano.txt文件,那么就只需要设置相对路径resource/dataset_volcano.txt`

读取到的原始数据如下:

3. 设置阈值
cut_off_pvalue = 0.0000001
cut_off_logFC = 1
dataset$change = ifelse(dataset$P.Value < cut_off_pvalue & abs(dataset$logFC) >= cut_off_logFC, 
                     ifelse(dataset$logFC> cut_off_logFC ,'Up','Down'),
                     'Stable')

根据阈值分别为上调基因设置‘up’,下调基因设置‘Down’,无差异设置‘Stable’,保存到change列
这里的change列用来设置火山图点的颜色:

4.设置标记基因
dataset$label = ifelse(dataset$P.Value < cut_off_pvalue & abs(dataset$logFC) >= 5, as.character(dataset$gene),"")

将需要标记的基因放置在label列, 这里设置logFC值大于5的差异基因来标记
需要注意的是标记的基因不能太多,Rstudio容易卡死

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容