基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子标签数据库,在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据,了解它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。
统计过程:1.计算富集分数。2.估计富集分数的显著程度。3.校正多重假设检验。
流程图
工具:
GSEA软件下载:http://software.broadinstitute.org/gsea/downloads.jsp 要下载到Java,这个是在Java基础上运行的软件,根据你的数据大小,选择不同内存的版本,2G内存开始的GSEA版本需要的是64位的Java 1.8版。
(操作教程:GSEA | Desktop Tutorial)
软件界面
数据准备:主要准备一个表达矩阵和一个分组说明的cls文件,软件界面如上图,操作简单,按照步骤Load data and run就行了,比较需要注意的是准备表达矩阵,如果选取的是GEO的公共数据集,就要将数据集进行预处理(采用R/bioconductor Affy和affyPLM程序包对数据集原始CEL文件进行质量控制后,使用Affy程序包中rma算法对该数据集进行进行预处理。),因为GSEA只支持特定的格式,所以要剔除不必要的信息,将癌组织和对应的癌旁组织的数据分别提取出来分别作为两组的表达矩阵(gct文件)以及分组文件(cls文件)(此步骤可以手动excel整理也可以找个代码模板用R来操作)
data preparing:
1.如果是自己已经排序好了的基因,可以直接拿来做GSEA分析的见: GSEAPreranked Page in the GSEA User Guide.
2.如果是affymetrix的表达矩阵,不需要提前进行Present/Marginal/Absent Calls. 来过滤掉一些表达探针,GSEA需要各种情况的表达数据。
3.如果是gct and pcl 的表达矩阵,缺失值空着就好了。但是如果缺失值太多了,这样在计算signal-to-noise的时候,不同group的样本数就不一致了,mean和SD都会变好,最好是避免这样的情况,可以考虑进行插值,或者过滤掉这样的探针。
我是表达矩阵
我是分组文件
txt文档格式会不一样,GSEA有给出模板,照着修改就OK,如果格式有误或数据有问题GSEA会报错的。(格式参考说明书:Data formats - GeneSetEnrichmentAnalysisWiki)
load data
设置参数
成功导入数据后,点击RUN GSEA,这时候要指定几个参数的选择,就是你要用哪些标签数据库来进行分析,以及如何分组等。
1. Expression dataset:输入的表达矩阵
2. Gene sets database:分析的数据库
3. Number of permutations:置换检验的次数
4. Phenotype labels:选择比较组,如果你输入的文件就只有2个组别的话,这个就很方便选一个就行了;如果你输入的有三个组别及以上的话,则这里就要跟你的需要选择两个组别的比较组,而且GSEA也会根据你的组别信息去表达矩阵中提取相对应的数据。
5. Collapse dataset to gene symbols: 如果你已经ID转化为HUGO gene symbol,那么这里选FALSE,否则选择TRUE。
6. Permutation type:选择置换的类型,是random phenotype还是random gene sets,一般每组样本数目大于7个时,建议选择phenotype,否则选择gene sets。
Chip platform:选择芯片类型,是对ID进行注释,即ID转化,选择ID对应的chip文件即可,如果已自行转化了ID的话,则空着就行(那么Collapse dataset to gene symbols应选择否)
提交之后,如果运行失败会出error提示,成功的话直接进入success的界面。
结果的解读:
431/899表示在WT这一分组中,一共有899个功能基因集,其中421个上升
99个基因集的FDE小于25%
118个基因的名义P值小于1%
118个基因的名义P值小于5%
点击snapshot可以看富集结果,就是下图Enrichment plot
点击enrichment result in html 可以查看所有的富集分析结果,进去之后可以点开查看每个Enrichment plot的参数。
点击enrichment result in excel就可以直接下载附带结果的excel。
SIZE:表示基因集里的基因数量
ES(enrichment score):富集分数
NES(normalized enrichment score):表示校正后的富集分数
NOM p-val (nominal p value ): 名义P值
FDR q-val(false discovery rate):错误发现率
FWER p-val:用bonferonni校正后的P值
RANK AT AMX:ES值对应的通路基因排名
Leading-edge subset:对富集贡献最大的基因成员,即领头亚集,用于定义Leading-edge subset的参数有:Tags,List,Signal。
Enrichment plot
当Enrichment plot过多的时候,可以整理成如下的表格形式展现在文章中。
在这些enrichment plot中,我们最关注的四个指标为ES值、NES、NOM p-val、FDR。
绿色曲线就是gene set里面对应的每个基因的enrichment score值(ES),开始时为零,从左到右每遇到一个基因就计算出一个ES值,连成一条绿线。当ES值大于0时,表示某一功能基因富集在排序序列的前端,若为小于0时,则某一功能基因富集在排序序列的后端,ES值越高说明这些基因在通路中有富集,非散在分布。中间条形码似的黑线是gene set里面的基因在背景基因里的位置,每条竖线代表该通路下的基因,从左到右按照表达水平排序。Leading-edge subset(对富集贡献最大的基因成员,即领头亚集);在ES图中出现领头亚集的形状,表明这个功能基因集在某处理条件下具有更显著的生物学意义;对于结果的分析,通常认为|NES|>1,NOM p-val<0.05,FDR q-val<0.25的通路下的基因集合是有意义的;NES的绝对值越大,FDR值就越小,说明分析的结果可信度越高。NOM p-val是针对某一功能基因集得到的ES值的统计显著性,P值越小,说明基因的富集性越好,但P值很小时,FDR值也可能很大,这说明和其他功能基因子相比较,它的富集并不是很显著,原因可能是数据样本量较少、杂交信号微弱或者是选择的功能基因子集并未很好得反映样本的物理学意义。
ES score的算法
基因富集的热图
热图用5种颜色来表示基因表达水平的高低水平
蝴蝶图显示的是基因顺序和排序度量得分之间的正相关和负相关的关系。
参考文献:
2.GSEA (GSEA小组官网)
3.http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html (说明书)
4.GSEA学习笔记
6. 基因探针富集分析(GSEA)翻译+心得 (作者为为)
7.3.GSEA-基因富集分析