Hi-C技术:检测人类基因组结构变异(SVs)的一种有前景的方法。目前严重缺乏能够使用Hi-C数据进行 全范围SV检测 的算法, 只能以 低于最佳的分辨率 识别染色体间易位和远程染色体内SVs(> 1mb)。
本文开发了一个深度学习模型,结合了深度学习和集成学习策略的框架,以高分辨率预测全范围的SVs——Eagle C
在癌症基因组中认识了许多先前未知的融合事件,也发掘了已知致癌基因的新型调控机制,这些发现为癌症分类和潜在疗法提供了新的靶点。
在每个细胞内,DNA长链需要经过精确地折叠和编组,然后装配到直径只有几微米的细胞核内,癌症基因组的结构变异,如逆转和易位,可以被Hi-C这类基因组分析工具中检测到。这些模式能够被计算机算法识别为结构变异的指标。
然而,这些巨大的结构变异通常会被全基因组测序 (WGS) ,甚至是Nanopore这样的长读测序(LRS)所忽略。“WGS非常擅长于检测碱基对突变和短插入缺失,但很难检测更大的变异。”
通常,基因融合会产生基因融合转录本和嵌合蛋白产物,它们已被用作治疗的靶标。众所周知的例子是靶向BCR-ABL1基因融合的格列卫(Imantinib)和靶向EML4-ALK基因融合的克唑替尼。所以很多癌症研究是关于融合基因的。
不同的是,EagleC发现了数百个被全基因组测序或长读测序遗漏的融合事件。根据Yue所说,这些新发现的事件占Hi-C所检测到的总遗传变异的10%-20%。许多这样的融合事件引起了一个致癌基因和位于另一条染色体上的一个远端增强子之间的联系。这些事件被称为“增强子劫持”,会导致致癌基因上调。
在这项研究中,研究人员使用EagleC在100多个癌细胞系和患者样本中搜寻结构变异,发现了其他可能被全基因组测序遗漏的融合事件。Yue说,使用这个模型可以扩展对结构变异及其对癌症相关基因影响的认识。尤其对于前列腺癌和乳腺癌,这两种最常见的癌症也有很高的融合事件发生频率。
“我们能够判断具有融合事件的癌症和没有融合事件的癌症的治疗反应是否有差异。我们的发现也为癌症研究人员提供了许多控制关键致癌基因和途径的新型调控因子。
EagleC还可用于检测数据稀少的单细胞Hi-C分析中的结构变异,这使得科学家能够检查单个癌细胞之间的异质性。在未来,Yue希望将这个模型应用到更多的癌症样本,并寻找针对当前研究中发现的新的融合事件的潜在药物。
在这项研究中,Yue和他的合作者从8个癌细胞系(A549,Caki2,K562,LNCaP,NCI-H460,PANC-1,SK-N-MC和T47D)中收集了一组的不同类型的高可信度结构变异。这些被用来训练一个深度学习模型—— EagleC,来学习埋藏在这些信号中的隐藏模式。EagleC的检测结果与传统基因组测序技术基本一致,WGS或Nanopore测序也发现了70~80%的基因组变异。