昨天上午复习了前天学的知识,随后被Deep Learning与生信组合吸引了注意,不过看了一些文献和公众号推送,觉得还是不能太理解。
下午继续写开题报告,下载了很多关于蛋白质组学的毕业论文,理清了思路,大概完成了框架。
晚上开始学习生信,昨天主要是一些代码的学习。
GEO数据的下载和提取(摘取自生信技能树):
#数据下载
rm(list = ls())
options(stringsAsFactors = F)
library(GEOquery)
gse = "GSE42872"
eSet <- getGEO(gse,
destdir = '.',(下载到当前目录)
getGPL = F)(不要注释文件)
#(1)提取表达矩阵exp
exp <- exprs(eSet[[1]])
exp[1:4,1:4] (这里主要是为了看数据,是不是log后的,可以range看范围)
#exp = log2(exp+1)
#(2)提取临床信息
pd <- pData(eSet[[1]])
#(3)调整pd的行名顺序与exp列名完全一致(这步很重要,如果落下了后面的分析全错)
p = identical(rownames(pd),colnames(exp));p
if(!p) exp =exp[,match(rownames(pd),colnames(exp))]
#(4)提取芯片平台编号
gpl <- eSet[[1]]@annotation
save(gse,pd,exp,gpl,file ="step1output.Rdata")