R 数据可视化 01 | 聚类热图

一. 示例数据准备

下载：链接：https://pan.baidu.com/s/1_b8swSkWDqIHZi6UwKaspA
提取码：pll7

文件说明

示例数据，其中数据均为虚拟数据，与实际生物学过程无关

文件名：dataset_heatmap.txt

列分别为基因，cell1的5个重复样本，cell2的5个重复样本

行代表每个基因在所有样本的FPKM值

二. 环境需求

Rstudio：
如果系统中没有 Rstudio，先下载安装：https://www.rstudio.com/products/rstudio/download/#download

heatmaps 包：

如果没有安装该R包，执行以下代码：

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("heatmaps")

三. 绘制聚类热图

1. 聚类热图绘制

# 执行前设置====================================
# 清空暂存数据
rm(list=ls())
# 载入R包
library(pheatmap)
# 设置工作目录
setwd("E:/R/WorkSpace/baimoc/visualization")

# 整理数据集====================================
# 载入数据
dataset <- read.table('resource/dataset_heatmap.txt',header = TRUE, row.names = 1)
# 截取表达矩阵的一部分数据来绘制热图
exp_ds = dataset[c(1:60),c(1:10)]
# 构建样本分类数据
cell_list=c(rep('cell_1',5),
            rep('cell_2',5))
annotation_c <- data.frame(cell_list)
rownames(annotation_c) <- colnames(exp_ds)

# 绘制热图=====================================
pheatmap(exp_ds, #表达数据
         cluster_rows = T,#行聚类
         cluster_cols = T,#列聚类
         annotation_col =annotation_c, #样本分类数据
         annotation_legend=TRUE, # 显示样本分类
         show_rownames = T,# 显示行名
         show_colnames = T,# 显示列名
         scale = "row", #对行标准化
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100) # 热图基准颜色
)

2. 无分类信息热图

# 将绘制热图部分替换为下列代码
# 绘制热图=====================================
pheatmap(exp_ds, 
         show_rownames = T,
         show_colnames = T,
         scale = "row", 
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100)
)

3. 无聚类热图

# 将绘制热图部分替换为下列代码
pheatmap(exp_ds, #表达数据
         cluster_rows = F,
         cluster_cols = F,
         show_rownames = T,
         show_colnames = T,
         scale = "row", 
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100)
)

4. 分割聚类树热图

# 绘制热图=====================================
pheatmap(exp_ds, 
         show_rownames = T,
         show_colnames = T,
         scale = "row", 
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100),
         cutree_cols = 2,
         cutree_rows = 20
)

5. 多分组聚类热图

# 清空暂存数据
rm(list=ls())
# 载入R包
library(pheatmap)
# 设置工作目录
setwd("E:/R/WorkSpace/baimoc/visualization")

# 整理数据集====================================
# 参数'./resource/dataset.txt'，表示载入E:/R/WorkSpace/baimoc/visualization/resource/dataset_heatmap.txt
dataset <- read.table('resource/dataset_heatmap.txt',header = TRUE, row.names = 1)
# 截取表达矩阵的一部分数据来绘制热图
exp_ds = dataset[c(1:60),c(1:10)]
# 构建样本分类数据
cell_type=c(rep('cell_1',5),
            rep('cell_2',5))
sample_calss=c(rep('normal',5),
               rep('cancer',5))
sample_type=c(rep('control',5),
               rep('case',5))
level = c(1:10)

annotation_c <- data.frame(cell_type, sample_calss, sample_type, level)
rownames(annotation_c) <- colnames(exp_ds)

gene_class=c(rep('good',30),
             rep('bad',30))
gene_type=c(rep('fat',20),
            rep('blood',20),
            rep('Immunology',20))
annotation_r <- data.frame(gene_class, gene_type)
rownames(annotation_r) <- rownames(exp_ds)
# 绘制热图=====================================
pheatmap(exp_ds, #表达数据
         cluster_rows = T,#行聚类
         cluster_cols = T,#列聚类
         annotation_col =annotation_c, #样本分类数据
         annotation_row = annotation_r,
         annotation_legend=TRUE, # 显示样本分类
         show_rownames = T,# 显示行名
         show_colnames = T,# 显示列名
         scale = "row", #对行标准化
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100), # 热图基准颜色
)

6. 分组调色

# 清空暂存数据
rm(list=ls())
# 载入R包
library(pheatmap)
# 设置工作目录
setwd("E:/R/WorkSpace/baimoc/visualization")

# 整理数据集====================================
# 参数'./resource/dataset.txt'，表示载入E:/R/WorkSpace/baimoc/visualization/resource/dataset_heatmap.txt
dataset <- read.table('resource/dataset_heatmap.txt',header = TRUE, row.names = 1)
# 截取表达矩阵的一部分数据来绘制热图
exp_ds = dataset[c(1:60),c(1:10)]
# 构建样本分类数据
sample_calss=c(rep('Normal',5),
               rep('Cancer',5))

annotation_c <- data.frame(sample_calss)
rownames(annotation_c) <- colnames(exp_ds)

gene_type=c(rep('Fat',20),
            rep('Blood',20),
            rep('Immunology',20))
annotation_r <- data.frame(gene_type)
rownames(annotation_r) <- rownames(exp_ds)

annotation_colors = list(sample_calss=c(Normal='#F8EFBA', Cancer='#FD7272'),
                         gene_type=c(Fat='#f1f2f6', Blood='#ced6e0', Immunology='#57606f'))
# 绘制热图=====================================
pheatmap(exp_ds, #表达数据
         cluster_rows = T,#行聚类
         cluster_cols = T,#列聚类
         annotation_col =annotation_c, #样本分类数据
         annotation_row = annotation_r,
         annotation_colors = annotation_colors,
         annotation_legend=TRUE, # 显示样本分类
         show_rownames = T,# 显示行名
         show_colnames = T,# 显示列名
         scale = "row", #对行标准化
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100), # 热图基准颜色
)

7. 显示文本

# 绘制热图=====================================
pheatmap(exp_ds, 
         show_rownames = T,
         show_colnames = T,
         scale = "row", 
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100),
         display_numbers = T, # 显示数值
         fontsize_number = 8, # 设置字体大小
         number_color = '#4a4a4a', #设置颜色
         number_format = '%.2f' # 设置显示格式
)

8. 去除描边

pheatmap(exp_ds, #表达数据
         show_rownames = T,# 显示行名
         show_colnames = T,# 显示列名
         scale = "row", #对行标准化
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100), # 热图基准颜色
         border_color = 'NA',
)

9. 字体相关

pheatmap(exp_ds, #表达数据
         show_rownames = T,# 显示行名
         show_colnames = T,# 显示列名
         scale = "row", #对行标准化
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100), # 热图基准颜色
         fontsize = 10, # 全局字体大小，会被后边设置所覆盖
         fontsize_row = 8, # 行字体大小
         fontsize_col = 12, # 列字体大小
         angle_col = 45, # 设置列偏转角度，可选 270, 0, 45, 90, 315，
         gaps_row = T
)

10. 调整聚类树高

pheatmap(exp_ds, 
         show_rownames = T,
         show_colnames = T,
         scale = "row", 
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100),
         treeheight_row = 50,
         treeheight_col = 30
)

11. 聚类方法选择

pheatmap(exp_ds, 
         show_rownames = T,
         show_colnames = T,
         scale = "row", 
         color =colorRampPalette(c("#8854d0", "#ffffff","#fa8231"))(100),
         clustering_distance_rows = 'euclidean', # 计算聚类间距的算法，可选'correlation', 'euclidean', 'maximum', 'manhattan', 'canberra', 'binary', 'minkowski'
         clustering_method = 'complete', # 聚类方法, 可选'ward', 'ward.D', 'ward.D2', 'single', 'complete', 'average', 'mcquitty', 'median' or 'centroid'
)

四. 保存为图片

这里可导出像素图和PDF，也可拷贝到PS调整
选择合适的文件格式，调整合适长宽，印刷或投稿选PDF，TIFF，EPS就好
文件默认存储在刚刚设置的工作目录里

五. 详细参数设置说明

1. 设置工作目录

setwd("E:/R/WorkSpace/baimoc/visualization")

在R的执行过程中，为了方便，需要指定一个获取文件和输出文件所在的目录，这样就不需要每次设置全路径，只需要指定相对目录

setwd("E:/R/WorkSpace/baimoc/visualization")的意思就是设置工作目录为E:/R/WorkSpace/baimoc/visualization

2. 载入数据

dataset <- read.table('resource/dataset_heatmap.txt',header = TRUE, row.names = 1)

因为工作目录已经设置，如果要获取E:/R/WorkSpace/baimoc/visualization/resource/dataset_heatmap.txt文件，那么就只需要设置相对路径resource/dataset_heatmap.txt

对于header = TRUE, row.names = 1代表读取文件表头，设置第一列为行名

3. 获取数据子集

# 截取表达矩阵的一部分数据来绘制热图
exp_ds = dataset[c(1:60),c(1:10)]

原始数据：

如果获取前两个基因和cell1与cell2的前两个样本，只需要执行

exp_ds = dataset[c(1:5),c(1:3,6:8)]

4. 样本分类数据

# 构建样本分类数据
cell_list=c(rep('cell_1',5),
            rep('cell_2',5))
annotation_c <- data.frame(cell_list)
rownames(annotation_c) <- colnames(exp_ds)

这段代码目的是构建分类名与原始数据的列名的对应关系

最后编辑于：2019.10.03 22:12:27

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 197,966评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,170评论 2赞 375
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 144,909评论 0赞 327
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,959评论 1赞 268
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,851评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,583评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,956评论 3赞 388
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,590评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,878评论 1赞 293
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,892评论 2赞 314
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,719评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,501评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,957评论 3赞 300
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,124评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,440评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,003评论 2赞 343
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,211评论 2赞 339