Nat Biotech | 肿瘤特异基因融合检测发现强免疫原性个体新抗原
原创 huacishu 图灵基因 2022-04-09 10:49
收录于话题#前沿生物大数据分析
撰文:huacishu
IF=54.908
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者介绍了EasyFuse,一种机器学习计算工具,用于检测从人类癌症样本中获得的转录组数据中的癌症特异性基因融合;
2、EasyFuse预测个人基因融合的精确度和灵敏度都很高,优于之前描述的工具。在癌症患者中检测到的高频率T细胞反应支持个体基因融合作为新抗原的相关性,而这些新抗原可能在个体化免疫治疗中成为重要靶点。
德国美因兹大学Ugur Sahin教授课题组在国际知名期刊Nat Biotechnol在线发表题为“Accurate detection of tumor-specific gene fusions reveals strongly immunogenic personal neo-antigens”的论文。癌症相关基因融合是高水平免疫原性新抗原的潜在来源,但由于缺乏准确、敏感地识别个人基因融合的计算工具,限制了它们在个性化癌症免疫治疗中的靶向性。在这里,作者介绍了EasyFuse,一种机器学习计算软件,用于检测从人类癌症样本中获得的转录组数据中的癌症特异性基因融合。EasyFuse预测个人基因融合的精确度和灵敏度都很高,优于之前描述的工具。通过检测癌症患者自体血淋巴细胞的免疫原性,作者分别检测了21例(48%)中的10例和30例(3%)中的1例预先确定的CD4+和CD8+T细胞反应。在癌症患者中检测到的高频率T细胞反应支持个体基因融合作为新抗原的相关性,而这些新抗原可能在个体化免疫治疗中成为靶点。
作者最初测试了17种公开可用的工具,用于预测MCF7和SKBR3细胞系中52种之前发表的基因融合(GFs)。FusionCatcher仅从五种符合基线标准的工具中预测了到目前为止最多基因融合的候选工具,其次是SOAPfuse和InFusion。MapSplice2和STAR-Fusion预测的数量较少,测序重复之间的一致性最高(图1a)。尽管存在这些差异,所有五种工具都一致预测了52份已发表GFs中的29-33份(合计39份),其中34份可通过RT-qPCR进行确认。然而,94%的预测来自单一工具,其中只有12%在两个测序重复中被发现(图1b)。由于这种多样性没有反映在一小部分已发布的GFs中,作者通过RT–qPCR和扩增子大小确认设计了一种半自动验证策略,并测试了133个GFs。尽管观察到使用多个工具和测序重复进行预测的GFs的确认率略高,但单一工具预测的验证成功率为61%(图1c),表明基于一致性预测或公布的GFs的性能评估是不够的。接下来,使用相同的五种工具,从14个新鲜冷冻(FF)原发性乳腺癌样本的RNA-seq数据预测GFs,并获得每个样本302个候选样本的中位数(图1d)。与细胞系类似,只有一小部分(8%)被多种工具识别(图1d)。使用之前建立的验证方法,测试了492个GFs,并观察到多个工具预测的更高验证率(78–100%)(图1e)。数据表明,当前的共识方法忽略了单一工具的作用,其后果是灵敏度大幅下降。
作者调查了14个乳腺癌样本中是否反复发现GFs,并在至少两个样本中总共鉴定出425个(14%)GFs(图2a)。作者观察到,其中大多数(71%)在顺式构型(同一染色体,同一条链,1Mb范围内)中有断点,因此可能是通读转录的结果(图2b)。为了研究肿瘤特异性,作者分析了来自48个不同正常组织的136个无关样本,其中4个来自乳腺组织。在这里,观察到肿瘤样本中复发的GFs与正常乳腺组织样本中的GFs之间存在高度重叠,74%为顺式构型(图2c)。在所有复发的GFs附近的顺式结构中,39%在正常乳腺样本中被鉴定,此外,49%在其他正常组织中被鉴定,而在独特的反式GFs中仅观察到1%和5%,这表明GFs附近的顺式结构在肿瘤非特异性转录物中富集。
为了提高反式GFs(与肿瘤特异性相关)的预测,开发了EasyFuse管道,以实现最佳计算性能、灵敏度和精度(图3a)。初始过滤步骤仅保留不一致的读取对(>200 kb)、拆分读取和未映射读取,从而使总读取量减少90%以上,所有五种预测工具的运行时间提高了10倍,最大内存消耗从高达90GB降至30GB(图3b,c)。通过读取过滤,初始预测的近顺式和类反式GFs的总数分别大大减少到15%和22%(图3d)。值得注意的是,对于已经使用RT–qPCR确认的反式GFs,保持了非常高的灵敏度(97%)(图3e)。此外,在读取过滤后,在GFs附近识别出499个额外的反式和80个额外的顺式GFs(图3d)。这些主要是通过SOAPfuse和STAR Fusion预测的,其特点是读取次数较少。通过检测77个额外的GFs,确认17个(22%)为真阳性GFs。尽管验证成功率相对较低,但这表明读取过滤步骤进一步提高了反式GFs的灵敏度(图3e)。在考虑所有已验证的GFs时,SOAPfuse对GFs附近的已确认CI具有更高的灵敏度,而EasyFuse对反式GFs具有更高的灵敏度。这种从顺式向反式的敏感性转变与正常乳腺组织中预测的GFs减少86%一致,表明肿瘤特异性更高。
接下来,作者希望确认并改进EasyFuse在临床相关FFPE样本中的性能。对来自原发性肿瘤和转移性肿瘤的14个样本的复制品进行了测序,这些样本代表不同的癌症实体,并且具有不同的肿瘤含量(20–90%)。作者预测每个样本的平均值为205.5 GF(图4a)。为了进行敏感性验证,对FFPE和来自同一切除术的匹配FF样本进行了RT–qPCR测试。最初,验证了853个GFs,其中535个在一个测序重复中鉴定,318个在两个测序重复中鉴定(图4b,c)。预测的GFs总数和阳性验证率与肿瘤类型或内容无关,表明EasyFuse在广泛的样本类型中提供了类似的性能。在两个测序重复中一致预测的GFs中,79%为阳性,而在一个重复中预测的GFs中只有32%为阳性(图4c)。为了进一步提高灵敏度和精度,构建了一个训练数据集,其中包含890个GF调用的确认数据,用于11个样本(图4b)的序列复制,从而在四个不同的特征子集(图4d)上训练随机森林分类器,并优化参数。作者发现断点配置(类型)、与已知外显子边界(外显子边界)匹配的特征以及EasyFuse的跨读对量化最具预测性(图4d)。在两个重复中检测到的融合候选基因的预测分数明显更高。在一个测试数据集中评估了三个样本的281个GF调用的验证数据的性能。两个“完整”特征集,无论有无测序复制中的识别信息,表现都一样好(图4e,f)。两个具有较小特征集的模型的性能稍低,它们独立于预测工具运行,并提供了更大的灵活性。为了获得最佳性能和多功能性,选择使用不含复制信息的完整功能集的模型进行进一步分析。接下来,评估了EasyFuse与Arriba、FusionCatcher、InFusion、MapSpitche2、SOAPfuse和STAR Fusion等工具在模拟GFs上的性能对比。在这里,观察到多种工具的高灵敏度,其中Arriba的灵敏度最高,EasyFuse排名第二。值得注意的是,EasyFuse中的模型仅在50个bp读取的情况下进行了训练,但在101个bp读取的情况下也表现良好,这表明该模型具有较强的能力。为了对临床相关FFPE样本的工具性能进行基准测试,在三个测试样本的原始未过滤测序数据上运行了工具。考虑到所有预测的GFs,所有工具的灵敏度都相对较低,从Arriba的0.02到EasyFuse的0.40(图4g)。EasyFuse的总体精度为0.72,而其他工具的精度范围从Arriba的0.26到0.64。EasyFISH甚至比其他工具更明显地通过实现0.43的灵敏度和0.71的精度而优于其他工具,而大多数其他工具表现出明显的性能下降(图4H)。综上所述,读取过滤、重新量化和机器学习模型使EasyFuse能够从临床相关FFPE样本中获得相对较高的预测GFs的灵敏度和特异性。
使用EasyFuse预测了14例FFPE黑色素瘤样本中的GFs,并选择了编码的新抗原来测试自身T细胞对它们的免疫识别。每个样本的预测中值为46个GFs(图5a)。通过去除非编码GFs和可能的种系事件,过滤预测数据集中的抗原。对于其余的靶点,优先考虑人类白细胞抗原(HLA)单倍型匹配的HLA I类和II类表位。每个样本预测九个抗原候选物的中位数(图5b)。在体外刺激患者外周血单核细胞(PBMC)后,通过IFN-γELISpot分析,对所有患者中30个预测的融合新抗原候选物进行CD4+或CD8+T细胞反应性检测。在21种可评估II类免疫反应的融合肽中,有10种(48%)诱导CD4+T细胞反应阳性。在30次可靠的CD8+检测中,一次(3%)显示CD8+T细胞反应阳性(图5c,d)。ZNF417-TSPAN11对CD8+和CD4+T细胞反应性均呈阳性(图5e)。然而,所有确定的T细胞反应都针对预测结合亲和力低于500nM的新表位(图5f)。仅考虑这些因素时,24个GFs中的一个(4%)显示CD8+T细胞反应,16个GFs中的10个(63%)显示CD4+T细胞反应。对于患者来源的T细胞中具有强反应性的四种GF肽,测试了来自三个无关健康供体的PBMC中的T细胞识别和刺激。两个融合肽在两个健康供体中诱导CD4+T细胞应答,另一个融合肽在所有三个供体中诱导CD8+T细胞应答。这些数据表明,在健康捐赠者的T细胞库中可以检测到新表位特异性T细胞反应,这可能归因于预先建立的交叉反应性记忆T细胞。为了确定GFs作为一类新表位的频率和相关性,使用EasyFuse预测了57例FF乳腺癌样本中的GFs,包括上述14例样本。在此,预测每个样本的中位数为12个融合新抗原(57 GFs)(图5g)。绝大多数(95%)的抗原仅在个体样本中检测到,这表明在该乳腺癌队列中,来自GFs的免疫原性表位与复发无关。
目前的GF预测工具缺乏可靠性和充分的验证,这阻碍了它们的应用,尤其是在单个样本中的预测。最近的一项泛癌症研究使用的预测工具仅在之前确认的28个GFs上得到验证,而最近的一项基准研究使用共识预测作为基本事实,没有任何进一步的验证数据。尽管使用共识预测是一种无偏见的方法,但它不能反映积极的单一工具预测。此外,通常不局限于肿瘤组织的通读GFs也在工具和样本中得到了更一致和反复的预测,因此可能被高估。在这里,作者提供了广泛的数据与其他六个预测工具的性能基准,并表现出较差的敏感性,尤其是对反式GFS。与之前的基准相比,灵敏度较低,一方面是由于要求严格,另一方面是由于数据集中大多数真阳性GFs的支持读取数相对较低。大多数是个体的,随机发生的,可能是非功能性GFs,其表达谱可能低于复发性致癌驱动GFs。尽管如此,免疫数据强调了它们对免疫治疗方法的重要性,因此需要更敏感的检测工具。尽管EasyFuse在预测反式GFs方面更为敏感,但它仍然局限于43%。以前的一些报告已经描述了复发性GFs的免疫原性,例如BCR-ABL、ETV6-AML1和DEK-CANin白血病以及肉瘤中的SYT-SSX和PAX-FKHR。因此,致癌驱动基因的复发性GFs被认为是与免疫治疗特别相关的靶点。然而,在乳腺癌队列中,绝大多数潜在免疫原性GFs是非复发、独特的事件。GFs检测到的48%免疫原性率远远高于之前描述的针对点突变的19%自发免疫应答率。与点突变相比,GFs可能有两个主要优势:(1)框架外GFs编码多个表位的几率增加;(2)GF表位可能提供与自身抗原更高的相异性,可能提高其免疫原性。这些免疫反应中的绝大多数是CD4+T细胞反应,这与之前关于源于体细胞点突变的新表位的报道一致。正如之前关于GFs和点突变的报道,在健康供体的T细胞库中观察到了免疫反应,表明预先建立的交叉反应记忆T细胞可以识别肿瘤新抗原。尤其是框架外GFs与自身抗原的高度差异可能会刺激多样化的T细胞受体,从而增加激活预先建立的交叉反应性记忆T细胞的机会。此外,数据表明,单个GFs可能是肿瘤特异性抗原更丰富的来源,与之前估计的每个乳腺癌样本3或4.2个GFs相比,中值为57个GFs。此外,EasyFuse更准确地描述了单个GFs的情况,因此可以成为癌症研究的关键工具。所提供的已验证GFs的数据对于进一步设计和优化预测工具也很有价值。最后,EasyFuse可以为针对性GFs以及个性化免疫治疗方法做出个体化治疗决策。
教授介绍
Ugur Sahin教授是BioNTech的联合创始人和首席执行官,他是一名内科医生、免疫学家,也是开发抗癌和传染病新方法的领导者。Sahin是世界上最重要的信使核糖核酸(mRNA)药物专家之一。他开创了几项突破,使mRNA疫苗和其他类型的免疫疗法得以发展。Sahin发起并监督2019冠状病毒疾病疫苗的开发,从实验室到临床试验最后到被批准仅仅用了11个月时间。Sahin的学术资历包括在德国美因茨大学担任转化肿瘤学和免疫学的教授以及博士研究生导师。他还担任同样位于美因茨的肿瘤学研究所(HI-TRON)科学管理委员会主席。
参考文献
Weber D, Ibn-Salem J, Sorn P, et al. Accurate detection of tumor-specificgene fusions reveals strongly immunogenic personal neo-antigens. NatBiotechnol. 2022;10.1038/s41587-022-01247-9. doi:10.1038/s41587-022-01247-9