单细胞转录组学习笔记-8-聚类算法之PCA与tSNE

刘小泽写于19.7.5-第二单元第六讲：聚类算法之PCA与tSNE

笔记目的：根据生信技能树的单细胞转录组课程探索smart-seq2技术相关的分析技术
课程链接在：http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53

还是之前文章附件的图片，其中b图是选取两个主成分做的PCA图，c图是tSNE图：

几个常用函数的转置t(transpose)，傻傻分不清？： 计算距离介绍过dist()函数，它是按行为操作对象，而聚类是要对样本聚类，因此要先将我们平时见到的表达矩阵(行为基因，列为样本)转置；同样PCA也是对行/样本进行操作，也是需要先转置；另外归一化的scale()函数虽然是对列进行操作，但它的对象是基因，因此也需要转置

关于PCA的学习，之前写过：

StatQuest-PCA学习：//www.greatytc.com/p/b83ac8f7f5a7
StatQuest--在R中拆解PCA：//www.greatytc.com/p/8a74508c3737

先构建一个非常随机的测试数据

# 设置随机种子，可以重复别人使用的随机数
set.seed(123456789)
library(pheatmap)
library(Rtsne)
library(ggfortify)
library(mvtnorm)
# 设置两个正态分布的随机矩阵(500*20)
ng=500 
nc=20
a1=rnorm(ng*nc);dim(a1)=c(ng,nc) 
a2=rnorm(ng*nc);dim(a2)=c(ng,nc) 
a3=cbind(a1,a2)
> dim(a3)
[1] 500  40
# 添加列名
colnames(a3)=c(paste0('cell_01_',1:nc),
               paste0('cell_02_',1:nc)) 
# 添加行名
rownames(a3)=paste('gene_',1:ng,sep = '')
# 先做个热图
pheatmap(a3)

没有体现任何的基因差异或者样本聚类（热图中的聚类是自然层次聚类），可以看到样本名都是无规律的交叉显示

如果做PCA呢？

# 先转置一下，让行为样本
>  a3=t(a3);dim(a3) 
[1]  40 500

# prcomp()主成分分析
pca_dat <- prcomp(a3, scale. = TRUE) 
p=autoplot(pca_dat) + theme_classic() + ggtitle('PCA plot')
print(p)

可以看到每组的20个细胞都分不开，但每组具体有哪些样本还是看不出来，因此这里为每组加上颜色来表示

# 先在原来数据的基础上添加样本分组信息(别忘了a3是一个矩阵，先转换成数据框)
df=cbind(as.data.frame(a3),group=c(rep('b1',20),rep('b2',20)))
autoplot(prcomp( df[,1:(ncol(df)-1)] ), data=df,colour = 'group')+theme_bw()

另外看下tsne

利用了一个核心函数Rtsne()

set.seed(42)
tsne_out <- Rtsne(a3,pca=FALSE,perplexity=10,theta=0.0) 
# 结果得到一个列表
> str(tsne_out)
List of 14
 $ N                  : int 40
 $ Y                  : num [1:40, 1:2] -36.7 -28 -168 -33.4 22.4 ...
 $ costs              : num [1:40] 0.00348 -0.00252 0.01496 0.01646 0.00951 ...
# 其中在Y中存储了画图坐标
> head(tsne_out$Y,3)
           [,1]      [,2]
[1,]  -36.72621 -78.03709
[2,]  -28.00151  33.30229
[3,] -167.98560 -80.26850
 
tsnes=tsne_out$Y
colnames(tsnes) <- c("tSNE1", "tSNE2") #为坐标添加列名
# 基础作图代码
ggplot(tsnes, aes(x = tSNE1, y = tSNE2))+ geom_point()
# 在此基础上添加颜色分组信息，首先还是将tsnes这个矩阵变成数据框，然后增加一列group信息，最后映射在geom_point中
tsnes=as.data.frame(tsnes)
group=c(rep('b1',20),rep('b2',20))
tsnes$group=group
ggplot(tsnes, aes(x = tSNE1, y = tSNE2))+ geom_point(aes(col=group))

再构建一个有些规律的测试数据

ng=500
nc=20
a1=rnorm(ng*nc);dim(a1)=c(ng,nc)
# 和之前的区别就在a2这里，都加了3
a2=rnorm(ng*nc)+3;dim(a2)=c(ng,nc) 
a3=cbind(a1,a2)
colnames(a3)=c(paste0('cell_01_',1:nc),paste0('cell_02_',1:nc))
rownames(a3)=paste('gene_',1:ng,sep = '')
pheatmap(a3)

热图已经能看出来差异了，再看看PCA

a3=t(a3);dim(a3)
df=cbind(as.data.frame(a3),group=c(rep('b1',20),rep('b2',20)))
autoplot(prcomp( df[,1:(ncol(df)-1)] ), data=df,colour = 'group')+theme_bw()

tsne也是如此

set.seed(42)
tsne_out <- Rtsne(a3,pca=FALSE,perplexity=10,theta=0.0) 
tsnes=tsne_out$Y
colnames(tsnes) <- c("tSNE1", "tSNE2")
tsnes=as.data.frame(tsnes)
group=c(rep('b1',20),rep('b2',20))
tsnes$group=group
ggplot(tsnes, aes(x = tSNE1, y = tSNE2))+ geom_point(aes(col=group))

真实数据演练

载入RPKM数据

rm(list = ls()) 
options(stringsAsFactors = F)
load(file = '../input_rpkm.Rdata')
# 表达量信息
> dat[1:2,1:3]
              SS2_15_0048_A3 SS2_15_0048_A6 SS2_15_0048_A5
0610007P14Rik              0              0       74.95064
0610009B22Rik              0              0        0.00000
# 样本属性
> head(metadata,3) 
               g plate  n_g all
SS2_15_0048_A3 1  0048 3065 all
SS2_15_0048_A6 2  0048 3036 all
SS2_15_0048_A5 1  0048 3742 all
#所有数据的聚类分组信息
group_list=metadata$g 
#批次信息
plate=metadata$plate 
> table(plate) 
plate
0048 0049 
 384  384

对数据进行PCA

# 操作前先备份
dat_back=dat
# 先对表达矩阵进行转置，然后转换成数据框，就可以添加批次信息了
dat=dat_back
dat=t(dat)
dat=as.data.frame(dat)
dat=cbind(dat,plate )

> dim(dat_back)
[1] 12689   768
> dim(dat)
[1]   768 12690

library("FactoMineR")
library("factoextra")
dat.pca <- PCA(dat[,-ncol(dat)], graph = FALSE)
fviz_pca_ind(dat.pca, # repel =T,
             geom.ind = "point", # 只显示点，不显示文字
             col.ind = dat$plate, # 按分组上色
             #palette = c("#00AFBB", "#E7B800"),
             addEllipses = TRUE, # 添加晕环
             legend.title = "Groups"

可以看到两个批次之间分不开，说明没有批次效应

最后编辑于：2019.07.07 10:35:35

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,898评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,401评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,058评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,539评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,382评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,319评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,706评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,370评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,664评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,715评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,476评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,326评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,730评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,003评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,275评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,683评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,877评论 2赞 335

单细胞转录组学习笔记-8-聚类算法之PCA与tSNE

先构建一个非常随机的测试数据

如果做PCA呢？

另外看下tsne

再构建一个有些规律的测试数据

真实数据演练

载入RPKM数据

对数据进行PCA

推荐阅读更多精彩内容