搜寻数据集及下载数据 差异分析--->差异表达基因 --->五大数据库注释--->蛋白互作等网络和通路注释
今天先为大家分享第一步“数据下载”,以便后续挖掘感兴趣的基因及构建通路。
首先我们可以需要先寻找贴合我们研究方向的论文所使用的数据集,下载里面的GPL文件和表达矩阵“series matrix”做基因的表达分析;再依据包含样本生存数据的临床特征数据集,去做生存性分析。
在进入GEO数据库官网前,需要先理解一下GEO的数据编号含义:
一篇文章可能包含至少一个GSE数据集,一个GSE数据集里面可能包含至少一个GSM样本。多个研究的GSM样本根据研究目的会整合为一个GDS,不过GDS运用的很少。而每个数据集都有着对应的芯片平台,就是GPL。
通过网页下载:
首先,登录GEO官网 https://www.ncbi.nlm.nih.gov/geo/,在右侧的搜索框输入一个GSE号,我们以gse21933为例,在搜索栏输入后点search进行检索。
检索后会进入Accession Display界面,里面包含着这个GSE数据的基本信息,如:标题、物种、研究概要、作者、样本描述、测序平台等等,当然还有我们最需要的原始数据。
上图可知道,这组数据包含的是肺癌与正常组织的基因表达图谱,我们想从这组数据中寻找差异基因,需要三个文件:原始文件、表型文件、注释文件。
1.原始文件,这里面储存的是每个样本中各个基因的表达量页面底部会提供原始数据,如图所示,点击http下载即可,文件是tar格式,下载下来以后需要解压缩。
2.表型文件,该文件备注每个样本是属于正常组还是癌症组,想要比较肿瘤和正常样本的区别,我们需要知道每组里面都是样本类型;
这里存储的是样本基因表达量信息;Series Matrix File,(基因表达量矩阵)
3.注释文件,因为原始数据处理得到的差异基因是以探针号表示的,我们需要知道这些探针号代表的基因是什么,这就需要用到注释文件。
有了这三类数据后,就相当于获得了 “烹饪”的原材料,之后便可以对这组数据进行“煎炒炸炖”,依据自己的需求和研究方向进行个性化的数据挖掘。
通过R包下载:
通常来说,数据挖掘之所以叫“挖掘”是因为需要在海量的数据内,通过检索收集才可以整合出可用信息从而满足我们研究目标。因此这里将介绍一项用于GEO数据下载的利器GEOquery,它是由Davis开发的一款针对下载GEO数据库的R包,目前在R开源网站bio-conductor内,运用它可以简单高效的下载所需的GEO数据。
如何使用GEOquery下载:
调用:
getGEO函数会加载GSE的matrix文件,默认会下载其注释探针信息,并对表达矩阵中的探针予以注释,但往往注释文件比较大,会出现parse保存的问题,所以一般建议把注释关掉了:getGPL=F,然后在后续分析步骤里进行手动注释。
作者:诺禾致源科技服务
链接://www.greatytc.com/p/88b5db10f00d
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。