Nat Biotech | 超快速纳米孔基因组测序加速致病变异鉴定
原创 huacishu 图灵基因 2022-04-03 23:27
收录于话题#前沿生物大数据分析
撰文:huacishu
IF=54.908
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者开发了一种简化的纳米孔WGS方法,该方法能够比之前报道的任何临床WGS管道更快地提供准确的大小变异调用;
2、作者将其应用于两例临床病例,实现了候选变异体从样品制备到鉴定所需时间的大幅度减少。
斯坦福大学Euan A. Ashley教授课题组在国际知名期刊Nat Biotechnol在线发表题为“Accelerated identification of disease-causing variants with ultra-rapid nanopore genome sequencing”的论文。全基因组测序(WGS)可以识别导致遗传疾病的变异体,但测序和分析所需的时间一直是其在急性病患者中使用的障碍。在本研究中,作者开发了一种用于超快速纳米孔WGS的方法,该方法结合了优化的样品制备方案、将测序分布在48个流动细胞上、实时碱基调用和校准、加速变体调用和快速变体过滤,以实现高效的手动审查。将其应用于两例临床病例,实现了候选变异体从样品制备到鉴定所需时间的大幅度减少。作者表明,与以前的方法相比,该方法提供了准确的变异调用和有效的优先级,并将诊断性临床基因组测序速度提高了两倍。
首先,作者调整了标准样品制备协议,以允许在48个流动细胞中分布足够数量的样品。为了适应新生儿和婴儿检测,需要一个DNA提取方案,从有限的血液中产生足够高质量的基因组DNA。作者测试了多种方法,发现一种方法能够在50分钟内从1.6ml血液中分离出平均片段大小>60kb的高分子量DNA,通过荧光测定法测得至少36μg基因组DNA,通过260/280 nm比率分光光度计测得样品纯度,平均为1.70。为48个流动细胞中的每一个准备测序文库不仅时间紧迫,而且还需要总共48μg(每个反应1μg)的起始DNA。作者发现,将每个反应的输入DNA增加到4μg,并平行制备八个反应,可获得16μg的最佳文库产率,允许每个流动细胞装载多达333ng的文库。为了在连续样本中重复使用流动细胞,在每次测序后使用在线方法中所述的标准核酸酶清洗去除DNA文库。进一步减少前一个文库携带量的一种方法是用连接到基因组DNA的独特核苷酸序列(条形码)制备每个文库。为了评估条形码对下游变体性能的影响,测量了样本之间的携带率,发现最大携带率为0.4%。然后,通过向HG002样本随机引入1%的HG005读数,以更高的速率模拟携带。作者比较了带有人工样本和纯样本之间的变异性能,发现没有显著差异。这些数据表明,在变体调用管道中,至少有1%的携带是可以允许的。为了进一步验证,对来自个人基因组计划的NIST参考材料HG002基因组进行了测序,并对之前测序过六个不同样本的流动细胞进行了条形码编码。生成的非条形码包含所有通过的读取,而条形码仅使用带有适当条形码的已通过读取生成。然后,通过将每个样本的变量调用性能与变量基准数据进行比较,研究了非条形码样本中的携带是否会影响变量调用。图2a说明了HG002变体性能(携带和不携带条形码)相似。此外,条形码数据和非条形码数据在分层区域中的变体调用性能相似(图2a)。与基准数据相比,在条形码和非条形码调用中观察到了类似的结果。基于这些数据,作者选择继续不使用条形码。这导致总文库准备时间减少了37分钟,并提高了下游测序效率。
接下来,作者讨论了本地计算塔在实时基址调用和对齐方面的局限性。当运行48个流量单元和高精度基本模型时,计算塔以低于最大序列数据生成速率1.8 Gb min−1的速率执行对齐。使用从早期非条形码HG002样本生成的218 Gb数据集,建立了在本地塔台上按顺序运行基站呼叫和校准的基线。在这次测试中,基站呼叫运行了17.5小时,并在另外2.5小时内完成了校准。在48个细胞中理论上最大吞吐量为2.5Gb min−1,测序将运行1.5小时,同时运行基本调用和对齐将耗费18.5小时。为了解决这个问题,作者开发了一个云计算基础设施,并跨多个图形处理单元实例进行并行调用和对齐。上传管理与将原始数据分发到16个计算实例(图1a)相协调,每个实例运行Guppy和Minimap,每个实例有一组特定的三个流动单元。使用这种方法,能够实现实时的呼叫和大规模校准。作者进行了一次模拟,将来自HG002样本的所有文件随机分为48个子集,每个子集代表一个不同流动单元的吞吐量。模拟高达2.5Gb min−1的吞吐量。每个子集的数据在90分钟内以统一速率传输到不同的输出目录。由于16个实例并行运行,基本调用和对齐的输出文件以25分钟的时间生成。通过这种方式,高深度、长读取、全人类基因组的碱基调用和比对可以近乎实时地完成。接下来,探讨了变体调用的加速。使用PEPPER–Margin–DeepVariant来识别小变种,将变量调用扩展到多个云实例,以实现运行时加速。对PEPPER-Margin-DeepVariant使用了14个GPU实例,对Sniffles使用了2个仅限中央处理器(CPU)的实例(图1b)。每个小变量调用实例依次处理一个重叠群或一对指定的重叠群。由于PEPPER–Margin–DeepVariant在变量调用过程中使用远程相位信息,因此没有在染色体尺度下进行并行化。同样,通过使用不同数量的线程并行运行基因组切片,从而使HG002样本的运行时间达到29分钟。在选择染色体水平的结构变异时,平衡了对较大重复和染色体间易位事件的敏感性。PEPPER–Margin–DeepVariant将整个运行时间从40分钟减少到23分钟。尽管之前的几项研究表明,基于纳米孔的变体调用的性能与其他方法相比具有竞争力,但作者进一步提高了管道的变体调用精度。纳米孔测序的主要误差模式是indels,尤其是在均聚物中。为了提高indel调用的准确性,从而减少治疗时间,作者修改了DeepVariant堆积图像,将读取重新排列到indel事件的替代等位基因。最后,对变量调用进行了注释(图1c),并开发了一个用于变量过滤的定制模式,以加速对变量的手动审查。对于每个样本,作者与治疗临床医生合作,得出了一份患者特异性、基于表型的靶基因列表。使用Alissa Exploration分析小变异vcf文件,并使用定制分类筛选变异并确定优先顺序以供审查。该标准过滤方案旨在应用于诊断过程中的患者,并提供广泛的搜索,允许表型扩展和有限的基因-疾病发现。在标准系统中,当变异符合多个可能标准中的任何一个时,就会触发手动审查,包括之前的注释、患者特定基因列表上的存在、潜在的双等位基因遗传或预测的有害影响。对于在快速环境中的应用,目标是在已确定的疾病基因中容易地呈现出明确的致病性、可操作的变体。标准体系中采用了相同类别的标准,但不是作为触发因素,而是对每个标准进行独立评分,只有当总分达到经验得出的得分阈值时,才进行手动审查。
为了在现实环境中说明该管道(图3a)的性能,作者总结了两个病例的临床表现和管道细节。首先,一名57岁的男性患有严重的SARS-CoV-2感染和甲亢、高血压,需要进行双侧肺移植。术中经食管超声心动图显示双心室功能障碍伴左心室肥厚和术后窦性心动过缓。心脏磁共振图像提供了肥厚型心肌病的证据;然而,鉴别诊断范围很广,包括冠状动脉疾病、心肌炎、心肌淀粉样蛋白和心肌肉瘤。要求进行快速分子检测以帮助明确诊断。在6:55h(图3b),变量调用导致4316464个小变量和35780个结构变量。在样品制备开始后的7:18h内,在TNNT2基因中发现了一种诊断性杂合变体,并根据美国医学遗传学和基因组学学会(ACMG)指南将其归类为可能的致病体。这一诊断进一步减少了多次后续影像学研究和心脏活检的需要。其次,确定了一名14个月大的女婴,有肌张力障碍和发育迟缓的病史,她在经历心脏骤停和呼吸衰竭后被送入斯坦福大学儿童医院的儿科重症监护室。所有其他诊断测试均不显著,表明可能存在遗传病因。在抽血的7小时内(图3c),过滤方法发现了31个小变异和21个SV,优先用于手动检查,在接下来的48分钟内,发现了一个未知意义的候选变异基因LZTR1,该基因被怀疑与高尔基体的稳定有关。
WGS对快速临床诊断的需求十分迫切。虽然临床WGS的标准周转时间为数周,但最近的研究已将新生儿群体的周转时间减少到3-5天。在本研究中,作者开发了一种简化的纳米孔WGS方法,该方法比之前报道的任何临床WGS管道更快地提供准确的大小变异调用。该管道能够在<2h内生成高深度的人类全基因组数据,并在<8h内生成诊断性变异调用。这条管道被证明比之前报道的14:33h内最快的基因组诊断速度快50%。总的来说,这条管道被证明与42%的诊断率有关。在样本制备过程中,作者专注于最大限度地提高DNA质量和长度,同时限制制备时间,尤其是对于少量血液。计算方法通过在云中使用大规模并行和GPU加速来减少运行时间。尽管作者的研究使用了谷歌云平台,但该管道也可以很容易地适应在其他云平台上运行。在速度或精度方面的其他优化会产生权衡。例如,替代等位基因的额外比对导致更准确但更慢的变体调用,尽管它通过减少用于检查的移码变体的数量来加快变体优先级。本研究中未探讨的另一个例子是使用更准确但速度较慢的基本呼叫软件。由于扩展计算的基础设施明显减少了运行时间,理论上可以使用更大的并行性来进一步减少运行时间对分析方法准确性的权衡。基于纳米孔的方法可以在低复杂度区域外和医学相关基因内生成高质量的变异调用。研究还表明,在GIAB高置信度区域之外,基于纳米孔的变体调用具有很高的一致性。此外,使用人类基因突变数据库(HGMD)进行的变体调用性能分析表明,纳米孔管道的SNP召回率为0.995,与Illumina的1.00相当。然而,与Illumina的indel召回率0.96相比,nanopore管道的indel召回率较低,为0.68。在将这项技术扩展到医疗应用时,设计了一种变体管理方案,以降低它们的优先级。此外,随着纳米孔技术的改进,预计纳米孔性能在不久的将来会有实质性的改善。纳米孔测序的另一个优势是能够直接从原始信号中获得甲基化信息。尽管甲基化变化作为遗传疾病的一个原因已经被认识到,但文献报道可能低估了总体发病率,因为迄今为止,量化全基因组甲基化的技术主要仍停留在研究领域。gnomAD等变异数据库包含大量研究人群中变异频率的信息。然而,这种数据库主要是使用短读测序技术构建的,因此偏向于点变化和短读图谱可访问的区域。随着长阅读技术的采用增加,这些限制将减少,通过更全面地注释常见变体来加快优先顺序。此外,trio方法在诊断敏感性方面具有众所周知的优势,这一点已得到充分证明。虽然预计trio测序可以提高产量,但目前的产量(42%)与过去十年中基因组分析的产量非常一致,表明在低复杂度区域,SV检测增强和假阳性indel报告增加的平衡下,总体表现优异。总之,作者提出了一种在<2h内对人类基因组进行高深度纳米孔测序的管道,结合实时碱基调用、对齐和加速变体调用和过滤,允许在<8h内检测出候选基因变体。
教授介绍
Ashley博士出生于苏格兰,他在牛津大学完成医学住院医师和博士学位,然后转到斯坦福大学,于2006加入了斯坦福大学。他的团队专注于精确医学科学。2010年,他领导的团队对人类基因组进行了首次临床解释。这篇文章成为当年临床医学中被引用最多的文章之一。他们现在常规地将基因组测序应用于斯坦福医院的患者诊断,Ashley博士在那里指导临床基因组计划和遗传性心血管疾病中心。Ashley博士热衷于罕见的遗传疾病,是未诊断疾病网络指导委员会的第一位联合主席。他是美国心脏协会国家创新奖和NIH创新者奖的获得者。他因对个性化医疗的贡献而获得美国心脏协会基因组和精确医学荣誉勋章。2019年,他被任命为斯坦福大学副院长。
参考文献
Goenka SD, Gorzynski JE, Shafin K, et al. Accelerated identification ofdisease-causing variants with ultra-rapid nanopore genome sequencing. NatBiotechnol. 2022;10.1038/s41587-022-01221-5. doi:10.1038/s41587-022-01221-5