Multi-Omics Signatures Identification for LUAD Prognosis Prediction Model Based on the Integrative Analysis of Immune and Hypoxia Signals
基于免疫和缺氧信号综合分析的LUAD预后预测模型的多组学特征识别
发表期刊:Front Cell Dev Biol
发表日期: 2022 Mar 10
doi:10.3389/fcell.2022.840466
一、背景
肺癌是最常见和最严重的癌症类型之一,并在全世界范围内呈现出男女发病率和死亡率的主要原因。肺腺癌(LUAD)是肺癌最常见的组织学亚型,具有异质性结局和不同的治疗反应。然而,对LUAD启动和进展背后的潜在机制的理解仍然有限。越来越多的证据表明,免疫与缺氧在肿瘤微环境中的相互作用具有临床意义。
肿瘤微环境(TME)由肿瘤细胞、内皮细胞、免疫细胞、成纤维细胞、巨噬细胞和细胞外基质组成,是癌变的关键调节因素,对LUAD的启动、发展和进展以及对各种治疗方法的反应有很大影响。TME的不同组成部分可以调节肿瘤的发展和进展。在免疫细胞中,活性氧(ROS)是几种关键功能(如吞噬、抗原呈现和识别、细胞溶解以及表型分化)的媒介,并对T和自然杀伤(NK)细胞产生免疫抑制作用。
二、材料与方法
1.数据来源
TCGA队列包括510个LUAD原发性实体瘤样本和58个正常对照样本的RNA-seq谱,561个LUAD样本的WES数据,以及455个Illumina 450 k DNA甲基化阵列图谱,为了消除多个样品中FPKM的定量mRNA丰度引起的误差,将FPKM转换为TPM进行标准化。
2.实验流程
1) 免疫状态的定义:28个免疫细胞亚群的免疫相关基因(IRGs)来自Charoentong等人(2017)的研究;通过GSEA计算每个样本的28种免疫细胞类型的富集得分(ES);生存分析;ESTIMATE算法通过估计不同浸润基质和免疫细胞的比例来生成免疫评分;通过映射RNA-seq图谱的样本ID,也为WES和DNA甲基化图谱的LUAD样本构建了免疫相关队列
2)缺氧-免疫相关亚型的鉴定:从分子标记数据库(MSigDB v7.4)下载缺氧相关基因(HRGs);应用可用于一般非线性降维的均匀流形近似和投影(UMAP)算法来降低HRG表达谱的维度,并利用潜变量以 "ward.D "聚类法将患者分组
3)多组学数据分析和预后预测模型构建:两个队列之间的差异基因表达分析使用DESeq2软件包;使用Fisher's精确检验来识别差异突变模式;使用CoMEt算法识别共生和互斥突变;单变量Cox回归、lasso回归、多变量Cox回归
4)功能富集分析:GO分析;DEG和DMP相关基因的分析和GSEA是使用R包"clusterProfile "进行的;GSEA图是使用R包 "enrichplot "生成的
三、实验结果
01 - LUAD的免疫状态和免疫相关的DEGs
作者通过GSEA计算了569个样本(包括510个肿瘤样本和58个正常样本)中每个样本的RNA-seq谱的富集度分数(ESs)。结果显示,28个免疫细胞中的25个在肿瘤和正常样本之间有明显差异。除了活化B细胞、CD56dim自然杀伤细胞和活化CD4 T细胞外,大多数免疫细胞在正常样品中明显富集,而不是在肿瘤样品中(图1A)。此外还观察到,几种免疫细胞的富集程度在不同的肿瘤阶段也有明显的不同。根据所有肿瘤样本中28种免疫细胞的ESs谱,定义了510个原发肿瘤样本的免疫状态,并使用 "ward.D "聚类法将相关的LUAD患者分为两组,该方法旨在通过根据聚类方差的变化来选择合并的聚类,从而找到紧凑的球形聚类(图1B),两组分别产生215和295名患者。存活率比较显示两组之间存在明显差异,预后较好的组被标记为IMMUNITY_H,其他为IMMUNITY_L。
作者接下来探讨了IMMUNITY_H和IMMUNITY_L队列之间的表达变化,以确定免疫相关的DEGs,将差异倍数大于2且FDR小于0.001的基因视为差异表达,其中1118个和628个基因在IMMUNITY_H队列中分别上调和下调(图1C)。从结果中观察到大多数趋化因子(如CCR5、CXCR6和CCL5)是宿主防御的关键介质,在IMMUNITY_H样本中明显上调,并协调免疫细胞招募到感染和炎症部位。
使用clusterProfile软件包对上调和下调的基因进行了功能富集分析。结果显示,上调基因在免疫相关的生物过程中富集,如T细胞激活和白细胞增殖,这表明上调基因在增强肿瘤相关的免疫力方面发挥了积极作用(图1D)。另一方面,下调的基因主要富集在与神经系统发育相关的生物过程中,这表明一些下调的基因通过影响神经系统发育来调节免疫和肿瘤细胞的活动。KEGG通路富集分析结果也显示,上调的基因主要富集在免疫相关的通路中,而下调的基因则富集在与神经系统发育和代谢相关的通路中。
02 - 缺氧免疫相关亚型和相关预后DEGs的鉴定
为了探究每个样本的缺氧状态,作者提取了200个与缺氧有关的标志基因的表达,然后用UMAP处理。利用UMAP产生的潜在变量,进一步将患者分为两组(图2A)。两组中分别有249和261名患者,生存分析显示两组之间有明显的差异(图2A)。预后较好的患者被分配到HYPOXIA_L组,其他患者被分配到HYPOXIA_H组。综合考虑免疫和缺氧状态,将患者分为三组,即"HYPOXIA_L & IMMUNITY_H"(n = 124),"HYPOXIA_H & IMMUNITY_L"(n = 170),以及 "MIX"(n = 216)。生存分析结果显示,不同组别患者的OS时间有明显差异(图2B),"HYPOXIA_L & IMMUNITY_H "队列中的患者预后最好,而 "HYPOXIA_H & IMMUNITY_L "的患者预后最差。
作者进一步研究了不同缺氧-免疫状态的队列之间各种临床特征(如年龄、临床分期、肿瘤大小、淋巴结和远处转移)的分散性。通过Cox比例风险回归分析,观察到OS时间与年龄无关。然而, "HYPOXIA_H & IMMUNITY_L "组的患者明显比 "HYPOXIA_L & IMMUNITY_H "组的患者年轻(图2C),这可能解释了临床观察到的年轻肺部患者往往在诊断时倾向于出现晚期疾病,导致生存率极低。除此之外还观察到吸烟年限较长的患者往往在高危("HYPOXIA_H & IMMUNITY_L")队列中富集(图2D)。作者还关注了免疫缺氧状态与各种临床因素之间的关联,如性别和临床分期。一般来说,性别与免疫缺氧状态无关(图2E)。对于临床分期,观察到I期患者倾向于预后好的 "HYPOXIA_L & IMMUNITY_H "队列,而III期患者倾向于 "HYPOXIA_H & IMMUNITY_L "队列(图2E)。由于所选比较的患者中只有4.48%存在远处转移,只考虑 "N"(区域淋巴结)和 "T"(原发肿瘤)进行TNM分散分析。结果显示,肿瘤大小较高的患者在 "HYPOXIA_H & IMMUNITY_L "组中明显富集,而含有癌症的淋巴结较多的患者在 "HYPOXIA_H & IMMUNITY_L "组中也明显富集。这些结果进一步表明,预后较差的"HYPOXIA_H & IMMUNITY_L "组的患者往往是高风险的。
通过比较 "HYPOXIA_L & IMMUNITY_H "和 "HYPOXIA_H & IMMUNITY_L "队列之间的表达,得到缺氧-免疫相关的DEGs,最后得到2798个DEGs。在 "HYPOXIA_H & IMMUNITY_L "队列中,有1091个基因显著上调,患者的生存率较低,被认为是风险DEGs(如GAPDH、NTS、LDHA和CDH2),而在"HYPOXIA_L & IMMUNITY_H "队列中,有1707个基因显著上调,患者的结果较好,被认为是保护性DEGs(如RCSD1、IL16、PRB4和VEGFD)。
03 - 比较不同缺氧-免疫状态下的体细胞突变
在确定了与缺氧-免疫状态相关的基因特征后,作者还探讨 "HYPOXIA_L & IMMUNITY_H "和"HYPOXIA_H & IMMUNITY_L "队列之间基因组水平的改变。这一部分使用了varscan2关于单核苷酸变体(SNV)、单核苷酸多态性(SNP)、插入(INS)和缺失(DEL)的结果。观察到在 "HYPOXIA_L & IMMUNITY_H "和"HYPOXIA_H & IMMUNITY_L "队列中,大多数基因组变异是错义突变(约85%),而对于大多数类型,"HYPOXIA_H & IMMUNITY_L "队列中的样本所包含的变异数量明显高于 "HYPOXIA_L & IMMUNITY_H"(补充图S2)。所有SNVs的转折(Tv)和过渡(Ti)之间的比率大约为2:1,并在两个队列中保持稳定。此外,还观察到 "HYPOXIA_H & IMMUNITY_L "队列中患者的TMB明显大于 "HYPOXIA_L & IMMUNITY_H "的患者,这也表明 "HYPOXIA_H & IMMUNITY_L "是高风险状态。
在 "HYPOXIA_H & IMMUNITY_L "队列中,181个基因在10%以上的样本中发生突变,而在 "HYPOXIA_L & IMMUNITY_H "队列中只有44个基因符合这一标准,其中有42个基因是重叠的。图3A显示了相应队列中前20个最频繁突变的基因。从结果中观察到TP53、TTN和MUC16是相应队列中最频繁突变基因的前三名。这些基因是相互作用的,并调节各种肿瘤相关的生物过程。接下来调查了前25个经常突变的基因的共现和排他性突变(图3B)。与普遍存在的共同发生情况(280例)相比,两个队列中只有四个独特的病例表现出相互排斥的突变,这表明它们可能在同一途径中产生冗余效应,并且它们之间的选择性优势可以保留多个突变副本。为了提取体细胞基因组水平的特征,应用Fisher's检验来确定两个队列之间的差异突变基因,最后有54个基因被认为是显著差异突变的(图3C)。从结果中发现 "HYPOXIA_H & IMMUNITY_L "队列中的基因突变频率高于 "HYPOXIA_L & IMMUNITY_H "队列。为了验证同一突变可能对不同队列患者的生存时间产生不同的影响,作者将"HYPOXIA_L & IMMUNITY_H "和"HYPOXIA_H & IMMUNITY_L "队列的患者分为 "wt "组和 "mut "组。生存分析结果显示,有几个基因在一个队列中可以将患者分成两组,其OS时间明显不同,而在另一个队列中则不能。例如,在 "HYPOXIA_H & IMMUNITY_L "队列中,有CRB1突变和无CRB1突变的患者的OS时间有明显差异,而在 "HYPOXIA_L & IMMUNITY_H "中没有这种明显差异(图3D),而TPR显示了相反的结果(图3D)。
04 - 比较不同缺氧-免疫状态下的DNA甲基化水平
作者利用Illumina Infinium 450k DNA甲基化数据来识别和比较不同缺氧免疫队列中DNA甲基化模式的影响,仅考虑分组为"HYPOXIA_L & IMMUNITY_H "或 "HYPOXIA_H & IMMUNITY_L "的患者。预处理后,使用 ChAMP 检测差异甲基化探针 (DMP) 的 264 个样本,其中不超过 20% 的探针缺失 β 值,确定了2082个缺氧免疫相关的DMPs(图4A)。与"HYPOXIA_L & IMMUNITY_H "队列相比,"HYPOXIA_H & IMMUNITY_L "队列中发现了1844个(88.57%)涉及520个基因的低甲基化位置,而只有238个(11.43%)涉及128个基因的位置是显著低甲基化。这些结果表明,"HYPOXIA_H & IMMUNITY_L "队列总体上倾向于有低甲基化的位置。只有3个基因(ZC3H12D,XKR6,DIP2C)同时含有高甲基化和低甲基化的位置。在 "HYPOXIA_H & IMMUNITY_L "队列的这520个低甲基化基因中,分别有29个和23个基因明显上调和下调。相比之下,高甲基化的基因中只有4个上调和5个下调的基因。
功能富集分析结果显示,低甲基化的基因主要参与感觉感知、离子运输和离子平衡,而高甲基化的基因在发育和细胞反应中发挥潜在作用(图4B)。这些DMP相关基因的基因集富集分析(GSEA)显示,具有高活性β差异的高甲基化基因对各种癌症相关途径如自然杀伤细胞介导的细胞毒性、Wnt信号通路和MAPK信号通路具有更重要的贡献(图4C)。
05 - 利用多组学特征进行预后预测
在转录组层面,在 "HYPOXIA_H & IMMUNITY_L "队列中共发现了1091个上调基因和1707个下调基因。在基因组水平上,"HYPOXIA_H & IMMUNITY_L "和"HYPOXIA_H & IMMUNITY_L "队列中分别发现了181和44个频繁突变的基因。在DNA甲基化水平上,"HYPOXIA_H & IMMUNITY_L "和"HYPOXIA_H & IMMUNITY_L "队列中,位于645个注释基因区域的2208个DMP中,有1163个是不同的甲基化。此外,根据单变量Cox比例风险模型,从这些基因改变中筛选出对患者总生存时间有显著影响的缺氧-免疫相关的预后特征。之后,选择了由230个DEGs、9个突变和97个DMPs组成的336项。考虑到大量的重要特征和它们之间可能的相互作用,应用LASSO Cox回归模型来评估特征对预测生存的贡献程度(图5A),保留了39个特征(27个DEGs,8个突变,4个DMPs),用逐步法建立多变量的Cox比例风险回归模型。
作者将TCGA样本随机分为训练集(n = 295)和独立测试集(n = 126),该过程重复5次。结果显示,训练模型的性能是满意的,平均一致性指数(C-index)等于0.816。接下来,根据建立的模型计算每个样本的风险分数,训练集1年、3年和5年预后预测的平均AUC值达到0.841、0.86和0.853(图5B)。关于测试集的预测,1年、3年和5年生存率的平均AUC值等于0.788、0.755和0.805(图5B)。此外,根据风险评分中位数将样本分为高风险和低风险队列。K-M生存分析显示,与低风险队列相比,高风险队列的总生存期更差(补充图S3)。
作者进一步合并所有TCGA样本,生成了由19个特征组成的总体预测模型,包括11个DEGs、7个突变和1个DMPs(图5C),从中发现一些特征如DEGs FSIP2、LINC01697、FAM83A和ADM,最初似乎没有统计学意义,但很可能与其他特征和结果相关。
简而言之,MYT1L、DMD、AHNAK2和MUC5B的突变对更好的预后有明显的积极贡献,而其他的突变则起相反的作用。此外,与上述观察相似,高危人群的总生存时间明显短于低危人群(图5D)。还观察到,根据各自的AUC值,风险评分对1年、3年和5年生存率的鉴别力很高,分别为0.819、0.844和0.849(图5E)。为了进一步证明整合多组学特征比使用单组学特征能提供更稳健的预后预测,作者对每种类型的组学数据采取了与上述相同的策略。结果显示,没有任何一个单组学特征可以提供比综合模型更强的模型(补充图S4)。
除了基因改变外,还考虑了一些可能也有预后能力的临床因素,如分期、性别和年龄。发现临床分期与总生存时间显著相关,但性别和年龄与之无关(图5F)。作者测试了不同的临床因素与风险评分之间的关联,发现III期和II期患者的风险评分明显大于I期(图5G)。结合这些临床因素和风险评分,建立了一个整合模型,结果显示,通过整合风险评分和分期信息,可以提高预后能力(C-index = 0.803)。此外,该模型在1年、3年和5年的生存预测方面也取得了更好的表现(图5H)。因此,由上述19个基因改变组成的多组学特征可以产生准确的预后预测,基于这些多组学特征计算的风险分数可以被视为一个独立的预后指标。
四、结论
基于TCGA的表达谱,作者旨在利用28个免疫细胞亚群的泛癌宏基因和缺氧相关基因的表达鉴定每个样本的缺氧和免疫状态。把缺氧-免疫状态与多组学基因改变相关联,以筛选出缺氧-免疫生物标志物,最后建立一个预后预测模型。本研究结果有望提供一个更全面的缺氧-免疫基因组图谱,并可能为LUAD患者提供一个更好的预后预测器。