如何实现GSEA-基因富集分析?

基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子标签数据库,在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据,了解它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。

统计过程:1.计算富集分数。2.估计富集分数的显著程度。3.校正多重假设检验。

流程图

工具:

GSEA软件下载:http://software.broadinstitute.org/gsea/downloads.jsp 要下载到Java,这个是在Java基础上运行的软件,根据你的数据大小,选择不同内存的版本,2G内存开始的GSEA版本需要的是64位的Java 1.8版。

(操作教程:GSEA | Desktop Tutorial

软件界面

数据准备:主要准备一个表达矩阵和一个分组说明的cls文件,软件界面如上图,操作简单,按照步骤Load data and run就行了,比较需要注意的是准备表达矩阵,如果选取的是GEO的公共数据集,就要将数据集进行预处理(采用R/bioconductor Affy和affyPLM程序包对数据集原始CEL文件进行质量控制后,使用Affy程序包中rma算法对该数据集进行进行预处理。),因为GSEA只支持特定的格式,所以要剔除不必要的信息,将癌组织和对应的癌旁组织的数据分别提取出来分别作为两组的表达矩阵(gct文件)以及分组文件(cls文件)(此步骤可以手动excel整理也可以找个代码模板用R来操作)

data preparing:

1.如果是自己已经排序好了的基因,可以直接拿来做GSEA分析的见: GSEAPreranked Page in the GSEA User Guide.

2.如果是affymetrix的表达矩阵,不需要提前进行Present/Marginal/Absent Calls. 来过滤掉一些表达探针,GSEA需要各种情况的表达数据。

3.如果是gct and pcl 的表达矩阵,缺失值空着就好了。但是如果缺失值太多了,这样在计算signal-to-noise的时候,不同group的样本数就不一致了,mean和SD都会变好,最好是避免这样的情况,可以考虑进行插值,或者过滤掉这样的探针。

我是表达矩阵

我是分组文件

txt文档格式会不一样,GSEA有给出模板,照着修改就OK,如果格式有误或数据有问题GSEA会报错的。(格式参考说明书:Data formats - GeneSetEnrichmentAnalysisWiki

load data

设置参数

成功导入数据后,点击RUN GSEA,这时候要指定几个参数的选择,就是你要用哪些标签数据库来进行分析,以及如何分组等。

1. Expression dataset:输入的表达矩阵

2. Gene sets database:分析的数据库

3. Number of permutations:置换检验的次数

4. Phenotype labels:选择比较组,如果你输入的文件就只有2个组别的话,这个就很方便选一个就行了;如果你输入的有三个组别及以上的话,则这里就要跟你的需要选择两个组别的比较组,而且GSEA也会根据你的组别信息去表达矩阵中提取相对应的数据。

5. Collapse dataset to gene symbols: 如果你已经ID转化为HUGO gene symbol,那么这里选FALSE,否则选择TRUE。

6. Permutation type:选择置换的类型,是random phenotype还是random gene sets,一般每组样本数目大于7个时,建议选择phenotype,否则选择gene sets。

Chip platform:选择芯片类型,是对ID进行注释,即ID转化,选择ID对应的chip文件即可,如果已自行转化了ID的话,则空着就行(那么Collapse dataset to gene symbols应选择否)

提交之后,如果运行失败会出error提示,成功的话直接进入success的界面。

结果的解读:

431/899表示在WT这一分组中,一共有899个功能基因集,其中421个上升

99个基因集的FDE小于25%

118个基因的名义P值小于1%

118个基因的名义P值小于5%

点击snapshot可以看富集结果,就是下图Enrichment plot

点击enrichment result in html 可以查看所有的富集分析结果,进去之后可以点开查看每个Enrichment plot的参数。

点击enrichment result in excel就可以直接下载附带结果的excel。

SIZE:表示基因集里的基因数量

ES(enrichment score):富集分数

NES(normalized enrichment score):表示校正后的富集分数

NOM p-val (nominal p value ): 名义P值

FDR q-val(false discovery rate):错误发现率

FWER p-val:用bonferonni校正后的P值

RANK AT AMX:ES值对应的通路基因排名

Leading-edge subset:对富集贡献最大的基因成员,即领头亚集,用于定义Leading-edge subset的参数有:Tags,List,Signal。

Enrichment plot

当Enrichment plot过多的时候,可以整理成如下的表格形式展现在文章中。

在这些enrichment plot中,我们最关注的四个指标为ES值、NES、NOM p-val、FDR。

绿色曲线就是gene set里面对应的每个基因的enrichment score值(ES),开始时为零,从左到右每遇到一个基因就计算出一个ES值,连成一条绿线。当ES值大于0时,表示某一功能基因富集在排序序列的前端,若为小于0时,则某一功能基因富集在排序序列的后端,ES值越高说明这些基因在通路中有富集,非散在分布。中间条形码似的黑线是gene set里面的基因在背景基因里的位置,每条竖线代表该通路下的基因,从左到右按照表达水平排序。Leading-edge subset(对富集贡献最大的基因成员,即领头亚集);在ES图中出现领头亚集的形状,表明这个功能基因集在某处理条件下具有更显著的生物学意义;对于结果的分析,通常认为|NES|>1,NOM p-val<0.05,FDR q-val<0.25的通路下的基因集合是有意义的;NES的绝对值越大,FDR值就越小,说明分析的结果可信度越高。NOM p-val是针对某一功能基因集得到的ES值的统计显著性,P值越小,说明基因的富集性越好,但P值很小时,FDR值也可能很大,这说明和其他功能基因子相比较,它的富集并不是很显著,原因可能是数据样本量较少、杂交信号微弱或者是选择的功能基因子集并未很好得反映样本的物理学意义。

ES score的算法

基因富集的热图

热图用5种颜色来表示基因表达水平的高低水平

蝴蝶图显示的是基因顺序和排序度量得分之间的正相关和负相关的关系。

参考文献:

1.From the Cover: Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles

2.GSEA (GSEA小组官网)

3.http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html (说明书)

4.GSEA学习笔记

5.GSEA富集分析 - 界面操作

6. 基因探针富集分析(GSEA)翻译+心得 (作者为为)

7.3.GSEA-基因富集分析

转自:如何实现GSEA-基因富集分析? - 知乎 (zhihu.com)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容