12.GEO数据集的R语言差异分析和代码解析—1.数据下载和整理

一、举例介绍

本节下载GSE1009数据集，使用limma包进行差异分析举例。

GSE1009

样本量：共6个样本，其中3个为糖尿病肾病(DN)肾小球样本，另3个为正常肾小球样本。

使用芯片：Affymetrix Human Genome U95 Version 2 Array。

平台：GPL8300。

二、差异分析举例：

###第一步：GEO数据下载

>setwd("D:\\Rfile")

#设置工作目录为D 盘的Rfile文件夹，大家可根据自己需要设置工作目录。

>rm(list = ls())

#清除所有变量

>options(stringsAsFactors=F)

#R导入数据时不自动转换为因子变量

##下面需要安装GEOquery包，用于下载GEO数据库的文件，已经安装GEOquery包不需要重复安装，直接调用GEOquery包。

#安装命令如下(本人已经安装了，所以只给出安装命令，去掉前面的注释符号即可安装)：

#if (!requireNamespace("BiocManager", quietly = TRUE))

#install.packages("BiocManager")

#BiocManager::install("GEOquery")

#bioconductor中的包的安装命令经常更新，如果大家怕安装命令已经更新了，现在的命令不能运行，可以百度“GEOquerybioconductor”进入主页，下拉到安装命令处，将网站上的最新安装命令复制即可，这就是最新的安装命令，其他bioconductor中的包的安装是一样的道理。具体如下：

复制上面红色这段即可。

##下面是用GEOquery包下载数据

>library(GEOquery)

#加载GEOquery包

>gset <- getGEO("GSE1009",destdir = ".",AnnotGPL = F,getGPL = F)

#下载GSE1009表达矩阵文件并赋值给gset变量,destdir = "."表示下载后的文件放在什么地方，默认为当前工作目录。AnnotGPL = F表示不下载注释文件，getGPL = F表示不下载平台文件。我们这里为了下载速度，就设置成不下载平台文件和注释文件。

#下载好后打开D盘,可看到Rfile中有一个“GSE1009_series_matrix.txt.gz”文件。

>save(gset,file = 'GSE1009.gset.Rdata')

#将gset(也就是下载后的GSE1009矩阵文件)保存为R文件，文件名为“GSE1009.gset”方便以后调用。

>gset[["GSE1009_series_matrix.txt.gz"]]@annotation

#查看GSE1009_series_matrix矩阵的平台文件

>gpl <- getGEO('GPL8300', destdir=".")

#下载这个平台文件。用于后面基因symbol注释。

总体先看看上面数据下载代码：

代码运行过程及结果：

运行代码后Rfile中的文件：

###第二步：数据整理（将探针ID给为基因symbol）

>a=gset[[1]]

#提取gset中第一个元素（包含基因表达矩阵和注释信息），并赋值给变量a

>dat=exprs(a)

#提取a中的表达矩阵并赋值给dat，这时的表达矩阵的基因名字为探针ID

>head(dat)

#展示表达矩阵的前6行，看下数据是否经过log转换，一般数据在20以内，是经过log转换的，若有成百上千的数据，表示这个数据还需要进一步log处理。

>ex <- dat

qx <- as.numeric(quantile(ex, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))

LogC <- (qx[5] > 100) ||

(qx[6]-qx[1] > 50 && qx[2] > 0) ||

(qx[2] > 0 && qx[2] < 1 && qx[4] > 1 && qx[4] < 2)

if (LogC) { ex[which(ex <= 0)] <- NA

dat <- log2(ex)

print("log2 transform finished")}else{print("log2 transform not needed")}

#也可以输入上面这段代码，如果数据已经经log后，显示log2 transform not needed；如果数据没有尽行log，需要log程序按照代码尽行log转换，完成后显示log2 transform finished。

再看看转换后的数据：

不是成千上百的啦。

>pd=pData(a)

#查看a的临床信息，为后面选择用于分组的变量做准备

>View(pd)

#查看pd

本例中pd共有26个变量(未完全展示)，我们可以看到只有title下的字段可以分为正常、疾病，其余变量下的字段都是一样的，所以我们选择title字段用于后续分组。

Title变量中的记录为control 1a....Diabetes 1a.......，中间用空格分割，我们需要提取出Control和Diabetes作为分组，所以需要用字符分割包来实现。

##安装字符分割包stringr包,命令如下，已经安装过的可以直接调用，不用重复安装。

#install.packages("stringr")

>library(stringr)

#调用stringr包

>group_list=str_split(pd$title,' ',simplify = T)[,1]

#把pd中title变量的字段，按照空格分割，为了给大家展示，我们先运行分割代码，分割后如下图所示，所以我们选择分割后的第一列即为分组状态

>table(group_list)

#计数每一组个数

>gpl1<-Table(gpl)

>save(gpl1,file = 'gpl1.Rdata')

#我们将平台文件转为list格式，并赋值给gpl1，将gpl1保存为R文件，方便以后调用。

>colnames(Table(gpl))

#查看平台文件的列名，我们看到有ID和gene symbol,记住gene symbol在第几列，我们这里在第11列。

>View(gpl1)

#再了解一下平台文件的数据，当然这里大家可以直接选择gene symbol字段也行，主要了解一下symbol中基因symbol值是否只有一个。

我们这里的gene symbol字段中的symbol，有的基因就不止一个名称，///后面有重名，我们需要第一个名字，所以需要用字符分割包再处理一下,原理同上面处理title一样。

>gpl1$`Gene Symbol`=str_split(gpl1[,11],'///',simplify = T)[,1]

现在是不是变成唯一啦。

>probe2symbol_df<-gpl1[,c(1,11)]

#提取平台文件gpl1中的ID和gene symbol，并赋值给probe2symbol_df

>colnames(probe2symbol_df)=c('probe_id','symbol')

#将列名改为probe_id和symbol

#这两步是因为我懒，不想再调整代码，为了方便后面代码运行，我改的，大家也可以不改。

>length(unique(probe2symbol_df$symbol))

#查看symbol为唯一值的个数

>table(sort(table(probe2symbol_df$symbol)))

#查看每个基因出现n次的个数,我们可以看到，symbol出现一次的基因有7050个，出现2次有1493个。。。

>ids=probe2symbol_df[probe2symbol_df$symbol != '',]

#去掉没有注释symbol的探针（其实这里没有注释的探针数量即为上面出现次数最多的基因440，也就是说有440个探针没有symbol）

>ids=probe2symbol_df[probe2symbol_df$probe_id %in% rownames(dat),]

##%in%用于判断是否匹配，

#注意这里dat是gset表达矩阵的数据，这一步就是把平台文件的ID和矩阵中的ID匹配。

>dat=dat[ids$probe_id,]

#取表达矩阵中可以与探针名匹配的那些，去掉无法匹配的表达数据

>ids$mean=apply(dat,1,mean)

#ids新建mean这一列，列名为mean，同时对dat这个矩阵按行操作，取每一行（即每个样本在这个探针上的）的均值，将结果给到mean这一列的每一行，这里也可以改为中位值，median.

>ids=ids[order(ids$symbol,ids$mean,decreasing = T),]

#即先按symbol排序，相同的symbol再按照均值从大到小排列，方便后续保留第一个值。

>ids=ids[!duplicated(ids$symbol),]

#将symbol这一列取出重复项，'!'为否，即取出不重复的项，去除重复的gene

#取median的话，这样就保留每个基因最大表达量结果.最后得到n个基因。

>dat=dat[ids$probe_id,]

#新的ids取出probe_id这一列，将dat按照取出的这一列，用他们的每一行组成一个新的dat

>rownames(dat)=ids$symbol

#把ids的symbol这一列中的每一行给dat作为dat的行名

>View(dat)

现在就得到行名为基因名，列名为样本名字的矩阵啦。

>dat<-dat[-9173,]

但是我们看到矩阵最后一行，是没有symbol名字的，我们把他去掉，数字自己更改。

>save(dat,group_list,file = 'GSE1009.Rdata')

>write.csv(dat,file="GSE1009expressionmetrix_GSE.csv")

#最后我们把结果保存。下一节会讲解差异分析。

现在看看，整体代码如下：

运行后的Rfile中的文件如下：

整理好的数据如下：

12.GEO数据集的R语言差异分析和代码解析—1.数据下载和整理

推荐阅读更多精彩内容