文献时间
2005.08
摘要
RNA表达数据的分析越来越普遍,从中提取生物相关的信息是一个很大的挑战。我们提供了一种方法,叫做基因集富集分析(GSEA),用来实现这个目标。它具有相似功能的基因作为一个基因集,作为操作的单位。我们通过一些癌症数据来演示其如何进行。发现在相互独立的实验个体中,那些单基因分析认为没有相似性的基因,GSEA却发现有许多相同的通路。GSEA提供在一个免费的软件包中,并附有初始的1325个生物定义的数据库。
引言
DNA芯片的表达分析不再是难点,如何从数据中了解内部的功能机制才是关键。
多个类别的样本产生不同的表达数据,我们可以从中得到差异性表达的基因,并根据差异性对这些基因进行排序,形成列表L,难点在于从这个L中提取生物意义。
常见的方法就是只关注顶部或者底部(认为差异性最大)的基因,进而获得生物性的线索,这个方法局限性有以下几点:
- 在多重假设检验矫正后,可能基因在统计上都不显著,因芯片技术的固有噪声存在。
- 可能形成的基因序列虽然统计学上显著但是没有具体的生物学功能,无法对其进行解释。
- 单个基因的差异性分析可能丢失通路的一些效应。一个通路所有基因整体表达提升20%可能比一个基因20fc更具有意义。
- 当不同的小组研究相同的生物系统的时候,他们统计学显著得到的基因列表可能重叠的很少。
为了解决这个难题,我们提供了GSEA这个方法,从基因集这个水平进行分析。基因集通过先前有的生物知识获得,一些相关的通路研究。GSEA分析的目标是,确定这些基因集是否在L的顶部或者底部,从而判断其对应特定的表型类型。
我们使用初始GSEA分析来自糖尿病患者和健康对比的肌肉活检数据。发现氧化磷酸化的相关基因在糖尿病患者的体内表达降低,虽然只有20%。而且这个结果已经被别其他独立实验证实。
鉴于这个成功,我们将GSEA进一步发展形成称为一个健壮的表达数据分析模块,研究特点,改善效果,使其适用性更加广泛。
本文,我们提供了所有的数学描述,以及一些例子来说明它的功效。我们已经创建了一个软件包GSEA-P附带一个初始数据集(MSigDB),两者都是免费的。
方法
对于两类样本1和2,根据基因表达的相关性对所有基因进行排序(图1A),根据任何合适的方法进行基因分类。
考虑一个已经定义好的子集基因集S(各种已知生物学方法),GSEA的目标是确定S在L中是随机分布还有有向的存在于顶部或底部。我们倾向于认为与特定表型相关的集合会呈现后述的一种分布。
以下是GSEA方法的三个关键步骤(细节见附录):
- 富集分数计算
我们计算了一个参数,富集分数(ES),它表示了基因集S在L的极至(两端)中过度表达的程度。从上至下遍历L,遇到属于S的基因就记录一个增值,不属于就记录一个减值。值变化的大小取决于基因和表型的相关性。富集分数取所有遍历时偏离0最大的值,它对应于加权的Kolmogorov-Smirnov统计量(图1B)。 - ES的显著水平估计
我们使用基于经验表型的置换测试,对ES进行统计学显著性检验,保留了基因表达数据的复杂相关性。我们先置换表型,然后计算出置换后的ES,各种表型都会得到ES,形成一个ES的分布。然后根据这个分布来计算我们初始ES的显著性,显著意味着基因集不均匀分布。这个方法保留了基因之间的相关性,同时找到了具有生物学意义的显著性表示方式。 - 多重假设检验的矫正
当所有基因集都被评估后,我们对其进行多重假设检验矫正。首先根据基因集的大小对所有基因集进行标准化得到标准化富集分数(NES)。然后对于每一个NES,控制其假阳性率来计算错误发现率(FDR),FDR用于评估给定基因集中发现假阳性的概率。
与以往方法的不同,在分数计算中,通过每个基因和表型的相关性赋予变化权重,使ES能够反映与表型的相关性。然后发现,这样做会导致ES分布不对称(因为许多基因和多个表型相关),因此分开考虑正,负ES基因集的显著性。
原来使用FWER进行多重假设检验,但是太过保守,导致没有显著性结果。现在使用FDR进行控制。
结果显示这个方法有很强的广泛适用性。对富集的侦测灵敏度很高,而且保留了上述氧化磷酸化的例子的结果。这个方法已经被整合为GSEA-P。
前导边缘基因集(leading-edge subset)
基因集可以通过各种方法进行确定,但是一般不会所有的基因都参与到同一个生物过程。经常需要将那些对ES分数贡献高的基因提取出来。我们将S基因集中,那些在ES值达到最高之前的基因称为前导边缘基因集。这些基因可以看做是富集的主要贡献基因。
检测这些前导边缘基因集能够得到一个基因集中生物学上重要的子集,接下来我们关于癌细胞系中P53状态的分析展示了这一点。已有研究,一个手动策划的基因集,一个计算得到的聚类基因集,共享的基因正是人类糖尿病中重要的调节因子。证明可以通过高分基因集之间共享的基因集对应的前导边缘基因集对它们进行分类,这种分类方法可以确定这些高分基因集是否相关到相同的生物过程。
各种GSEA方法
GSEA不仅可以应用于上述出现的差异基因排序列表,还可以应用与其他方法形成的排序列表。
一些小基因集中,没有足够的样本数量来进行严格的显著性水平检测,进而对基因进行排序。对于这种情况,可以假定基因在列表中随机分布,然后通过改变基因序列计算P值。这个方法就比较宽松:它忽略了基因之间的相关性,会过高估计基因的显著性水平,导致产生假阳性,对于假说的形成比较有帮助,所以也提供。
基因还可以通过和一个特定模式的相关性进行排序。
人类基因集的初始目录
我们创建了1325个初始的基因集,叫做MSigDB 1.0,主要有4类基因集组成。
- 细胞遗传学集
这个目录有,24个人类染色体都有一个对应的基因集,295个基因集对应细胞遗传学研究。 - 功能集
472个基因集对应与特定的信号通路和代谢,50个基因集对应于遗传和化学扰动的核心调控 - 监督模块集
人类基因启动子区域57个保守的调控模块 - 邻近集(Neighborhood sets)
427个以癌症相关基因为中心的相邻基因的集合
结果
男性和女性的淋巴母细胞
我们从15个男性和17个女性的淋巴母细胞中获得表达谱,想要鉴定与性别相关的基因。
首先对C1基因集进行富集测试,发现在Y染色体上富集有至少15个基因。X染色提上的富集情况并不能说明问题,因为剂量补偿效应的存在。
然后对C2基因集进行富集测试,发现了三个基因功能集。
癌细胞系中的p53
我们使用NCI-60癌细胞系的表达数据,想要鉴定转录因子p53的调控靶标。已经报道的p53突变中有17种为正常,33种为不正常。
通过对C2进行富集()鉴定了5个基因集,都与p53功能相关:
- p53信号通路相关蛋白的基因,会引起DNA损伤,进而细胞循环停止
- p53下游靶标集合
- 辐射诱导的p53相关基因
- 缺氧诱导的p53相关基因
- 热休克蛋白信号通路,避免细胞应激性死亡
对于()有一个基因集:Ras信号通路相关基因,另外两个接近显著性阈值的基因集为Ngf和Igf1信号通路。我们对这三个基因集的前沿子集进行研究,它们共有的子集对应MAPK通路的上调,这个通路又是,的关键不同点。
急性白血病
24个急性淋巴细胞白血病(ALL)病人的表达数据和24个急性髓性白血病(AML)病人的表达数据。
我们首先对C1进行富集,在ALL>AML时,获得5个基因集,功能都与ALL的增加和AML的减少相关,容易解释:
- 5q31:AML的细胞遗传学相关,AML病人染色体5q缺失的主要位点
- 17q23:是骨髓恶性肿瘤的基因重排主要位点。
- 13q14:包含RB基因座,在AML中经常缺失。
- 6q21:一个常见的染色体脆弱位点,经常出现在血液系统恶性肿瘤中。
- 14q32:Ig抗体的重链位点超过100多个基因的表达,几乎占据整个淋巴系统,但是这个是组织特异性的表达而不是染色体的异常
在AML>ALL时,没有显著富集的基因集,可能表示ALL中缺失的相对频率。用细胞遗传学基因组的分析表明GSEA可以鉴定癌症亚型中的染色体异常。
两种肺癌
GSEA的一个目标就是形成更强大的功能来比较独立得到的数据(不同平台)从而得到比单基因分析更加一致的结果。为了测试方法的健壮性,我们采用两个研究的数据Boston和Michian,目的是评估基因集分析相对于单基因分析是否更加能揭示数据集中的一般特征。
两项研究采用的都是肺腺癌病人的基因表达谱(Boston:62,Michian:86),而且都附带临床信息(“good”,“poor”)。我们发现,在进行多重假设检验的矫正后,没有基因达到显著性阈值。
从单基因分析的角度看,这两个数据集几乎没有共同点。先采用一个传统的方法:对比和表型相关性比较高的一些基因。定义为Boston集中与“poor”相关性最高的100个基因,同理,两个基因集只有很少的重叠基因(12个),而且置换检验几乎不显著。当我们将Stanford研究的数据添加,进行三个基因集的重叠时,只有一个重叠基因,而且这些重叠基因也没有明显的生物功能主题。
然后我们尝试GSEA是否能揭示两个数据集中的共同点。将基因集和Michian所有基因列表进行对比,发现有很显著的富集,反过来同样。
证明了GSEA可以发现不同来源数据集的共同之处,我们进一步研究GSEA能否鉴定相关的功能集。于是我们将两个基因集对C2进行富集分析,相对于单基因分析没有发现显著性基因,GSEA在Boston中发现了8个功能集,Michian中发现了11个功能集。
而且,两个数据集中的富集基因有很大的重叠。大约一半的基因集是两项研究共有的,以及附加的一项研究,虽然不是完完全全,但是都与相同的生物过程相关。更为详细的,我们发现了一个被端粒酶,两个不同的tRNA合成相关基因组,两种不同的胰岛素相关基因和两种不同的p53相关基因上调的基因组。因此,Boston8个基因集中的5个和Michian11个基因集中的6个相同或者相关。
为了有更深入的了解,我们将分析的数据集扩展到那些没有满足FDR标准的数据。使用每个研究的分数最高的20个基因子集,共60个,以及它们对应的额前沿子集。上述在Boston和Michian重叠中,有端粒酶和p53基因。端粒酶激活是肺腺癌发病机制的关键特征。
在三个研究中,出现了两个生物功能主题,细胞的快速生殖和氨基酸的生物合成:
- 我们在三个研究中都发现了细胞快速增殖的相关迹象,包括Ras激活,细胞循环,对缺氧的反应等功能相关的基因集。超过1/3的基因集都和这些过程相关,而且这些过程都在恶性肿瘤中发现。
- 同时发现氨基酸生物合成的提高的现象,发现了17个与氨基酸和核酸代谢,免疫调节,mTor喜好转导相关的基因集。
讨论
传统的单基因分析,虽然能够给出具有差异性的基因但是没有明显的生物过程上的解释。
GSEA从基因集的水平对数据进行分析。这种方法一开始被用来发现人类糖尿病中改变的代谢途径,并随后用于发现涉及弥漫性大B细胞淋巴瘤,涉及前列腺癌的营养感应途径以及比较小鼠与人类的表达谱的过程。在本文中,我们将原始方法改进为灵敏,稳健的分析方法和工具,具有更广泛的适用性以及大型基因组数据库。GSEA可以拓展其他数据集,如血清蛋白质组学数据,基因分型信息或代谢物谱。
与单基因分析的各种方法相比,GSEA有一些优点:
- 更容易从生物功能方面解释数据(有一些显著但是没有功能注释的单基因)
- 当基因集中的基因高度相关的时候,GSEA可以提高信噪比,从而能够侦测单基因的变化
- 前沿集能够帮助定义子集来解释结果
与其他基因集分析的各种方法(重叠统计原理)相比,GSEA的优点:
- GSEA考虑的是所有的基因,不仅仅是那些差异性显著的基因
- GSEA通过置换类别来进行显著性测试,保留了基因之间的相关性
GSEA最大的特定就是它的灵活,庞大且持续更新的内置功能集。