Rapid, highly accurate and cost-effective open-source simultaneous complete HLA typing and phasing of class I and II alleles using nanopore sequencing
doi:https://doi.org/10.1111/tan.13926
阅读链接:https://onlinelibrary.wiley.com/doi/10.1111/tan.13926
摘要
由于该区域的复杂性,HLA 区域内基因的准确快速基因分型存在许多困难。 在这里,我们展示了我们用于 HLA 基因分型的基于纳米孔的长读长聚合酶链反应 (PCR) 解决方案的概念验证结果。 对于 15 个基于 HLA 人类学的样本和 13 个 NHS 血液和移植衍生样本,40ng 基因组 DNA 对 I 类和 II 类 HLA 等位基因进行了long-range PCR。 合并的 PCR 产物在 Oxford Nanopore MinIoON R9.4.1 流通池上进行测序。 测序读数的HLA基因型是用HLA-LA分配的。 将调用的基因型与来自短读下一代测序、Sanger 序列和/或单点多态性 (SSP) 分型的组合的参考进行比较。 对于一致性,第一、第二、第三和第四字段的准确度分别为 100%、98.4%、97.5% 和 95.1%,到可用的四字段准确度,否则 28 个样本中的三个字段用于 I 类调用和 17个 II 类调用的样本。 成功展示了母本和父本等位基因的Phasing,以及基于Phasing的纯合子运行鉴定。 检测运行时间为 8 小时,HLA 分型数据重建时间为 15 分钟。 化验成本为 55 英镑(80 美元)/样品。 我们开发了一种快速且具有成本效益的long-range PCR 和基于纳米孔测序的测定法,可以对HLA区域内的基因进行基因分型,精度高达四个字段,识别 HLA 中的纯合子运行,重建母本和父本单倍型,并且可以缩放从多样本运行到单个样本。
... 介绍方法等请看原文
结果
数据传输
对于NHSBT样本分型,总共产生了2.7 GBase的测序数据,中位数读取长度为3377个碱基,读取长度N50为3606个碱基,读取质量的中位数为9.4。对于人类学panel样本分型,总共产生了3.8 GBases的测序数据,中位数读取长度为3170个碱基,读取长度N50为3513个碱基,读取质量的中位数为9.9。两个面板的运行时间都标准化为8 小时。对于单个FLongle测序样品,产生了43266个读数,中位数读出长度为1080个碱基,总序列输出为110 Megabases碱基。
工作流程
整个工作流的时间安排如图S1所示。多重远程聚合酶链式反应耗时150 分钟,随后修改的LSK-109方法耗时30 分钟,随后在纳米孔系统上耗时120 分钟,以及组装人类白细胞抗原调用的30 分钟。项目上的流量单元的产量决定了运行时间。通常,FLongle上的单个样本运行2 小时(40 mb产量),而minion上12个多路样品运行50 分钟(396 mb产量),就可以获得500倍覆盖的足够数据(图S2)。因此,我们将运行时间设置为2 小时。
I 类和 II 类 HLA 识别准确度
在初步分析中,发现每个扩增子至少需要500倍的覆盖率才能准确地识别HLA,因此在覆盖率低的样本中,这些都需要重新运行。对于第一组NHSBT样本,11个样本进行了 I 类等位基因分析(表3)。所有样本对于第一个领域都是正确的,NHSBT样本1的参考输血服务 (BTS) HLA-C等位基因是7,对于MiSeq呼叫是C07:02:01:03 (尽管在BTS分型中给出了C07:123作为第二选项),对于纳米孔,它是C*07:123。
表3 NHSBT 实验中样本的结果列表。注意:颜色代表匹配的准确性——绿色,所有字段匹配;黄色,第二字段不匹配;红色,第一个字段不匹配。RunID,内部运行ID;备用 ID,NHSBT 样本 ID;技术参考:NHSBT 的 MinIon 测序;MinIon,基于纳米孔的 HLA 分型;BTS、NHSBT 血清分型衍生的等位基因。 缩写:NHSBT:NHS血液和移植。
对于第二组 NHSBT 样本,选择了一组更具挑战性的两个样本。I 类和 II 类调用的一致性为 100%,错误率为 0%。
对于人类学panel,对 15 个样本进行了 I 类和 II 类等位基因分析(表4)。除样品 IHW09376 外,所有样品均完全匹配。对于唯一出现的字段2错误,参考调用是 HLA-B*27:05:02,纳米孔调用是 HLA-B*27:110。这表示单个核苷酸变化 (G > A),并且可能表示任一方法的测序错误。对于 II 类等位基因,所有样本均匹配,但 IHW09021 除外,其中 HLA-DRB1 的参考是DRB1*03:02:01,MinION 调用是 03:03。对原始数据的检查表明,这是由纳米孔测序中的插入缺失引起的序列比对错误。当应用手动校正时,等位基因正确解析。
表4 人类学panel实验中样本的结果列表。注: IHW ID,国际组织相容性研讨会 ID;技术参考:等位基因由 IHW、MinIon、基于纳米孔的 HLA 分型提供。颜色代表匹配的准确性——绿色,所有字段都匹配;黄色,第二场不匹配;红色,第一个字段不匹配。A = HLA I 类等位基因;B = HLA II 类等位基因 DPA1、DPB1、DQA1、DQB1;C = HLA-DRB3,4,5 等位基因。
FSGS/APOL1 allele calling
为了了解纳米孔系统对可能易患临床相关疾病的单核苷酸多态(SNP)变异的使用,将FSGS的G1和G2风险等位基因添加到混合物中。所有样本均检出G1等位基因(rs73885319,chR22:36265860,NC_000022.10:g.36661906A>G和rs60910145,chR22:36265988,nc_000022.10:g.36662034T>G)。在12个样本中,所有样本都有A参考等位基因。G2等位基因是一个6碱基(rs71785313,chR22:36266000,NC_000022.10:g.36662046_36662051delTTATAA)缺失。
在12个样本中,未见内含子。值得注意的是,在APOL1基因SNPs区域的200 碱基内观察到了几个常见的小SNP,例如rs1403581130。
R9.4.1 vs R10 pores
作为早期获取计划的一部分,该项目被授予新的R10纳米孔,以在其上运行人类白细胞抗原分型样本(图1)。R10使用与R9数据相同的管道调用,并显示出显著更高的单碱基精度。在图2中,所有三个面板都显示了R10数据(每个面板的顶部)与R9数据(每个面板的底部)的IGV图,显示了显示的三个HLA基因--HLA-DQB1(顶部)、HLA-DPB1(中间)和高度多态的HLA-DRB5之间的单碱基错配水平大大降低。
有趣的是,R10和R9之间的原始平均地图质量(MAPQ)分数相似(49比44),基本MAPQ分数(16.2比15.5)相当于基本错误率为2.4%比2.8%。
根据MiniMap2的报告,R10孔的中位比对得分(AS,越高越好)为4,350分,而R9.4.1孔的中位比对分数为722分(Mann-Whitney P < .0001,图3)。
MiniMap2报告的错配中位数(NM,错配越少越好),R10孔为51,R9.4.1孔为551(Mann-Whitney P < .0001,图3)。
图1 HLA-DPB1 基因定相的 IGV 图。蓝条 = 单倍群 1;绿条 = 单倍群 2。碱基不匹配显示为条内的彩色线条。IGV,集成基因组查看器
图2 IGV 图降低了 R9 和 R10 孔之间的读取精度。顶图 = HLA-DRB1;中图 = HLA-DPB1;底图 = HLA-DRB5。IGV,集成基因组查看器
点击查看图2原图
图3 log10的小提琴图和晶须图:左 A,比较 R9.4.1 孔(蓝色)和 R10 孔(红色)的代表性样品的对齐分数(越高越好)。右 B,比较 R9.4.1 孔(蓝色)和 R10 孔(红色)的代表性样品的错配数(越低越好)
Flongle 设备上的单个样本调用
为了了解微型纳米孔装置(Flongle 流通池)的输出是否在 R9.4.1 Flongle 上运行了单个样品(NHSBT 样品 27)。数据输出为 0.9 Gb,对于此样本的 I 类和 II 类字段,在四个字段级别的准确度为 100%。
HLA-DRB1 中的 HLA 定相和纯合性鉴定
鉴定母本和父本对 HLA 等位基因的贡献对于鉴定纯合性运行至关重要,这可能会影响器官匹配,并且难以使用短读技术检测。为了展示纳米孔长读长测序对 HLA 定相以及识别纯合性运行的能力,选择了单个样本(人类学panel样本 1,IHW09377)进行分析。在使用 FreeBayes 进行变体调用后,使用 WhatsHap 生成了单倍群。对于这个样本,每个样本都衍生出两个单倍群,大概是母系和父系对先证者遗传 HLA 的贡献。这可以在 HLA-DRB1 的 IGV 中清楚地看到(图1) 通过生成单倍群标记的 BAM 文件。在此图中,可以在不同颜色的读数(绿色表示单倍群 1,蓝色表示单倍群 2)中看到母本和父本等位基因的不同贡献。每个单倍块跨越整个扩增子,加强了 HLA 系统的共同显性遗传。人类学panel样本 IHW09377 的目测显示 HLA-DRB1 是纯合子(图4)。
图4 IGV 图显示 HLA-DRB1 是纯合的,由 VCF 等位基因调用图(表意文字下方的面板)表示,主要由纯合(红色)SNP 和偶尔的杂合(蓝色)SNP 组成。IGV,集成基因组查看器
速度和成本效益
与传统分型(策略)相比,基于纳米孔的测定显示出相当大的基于速度的优势。DNA 提取需要 1 小时,文库制备需要 3 小时,测序需要 4 到 20 小时,具体取决于所需的序列数据量。在运行 Ubuntu LTS 18.04 的具有 256 GB 系统内存的 16 核英特尔至强服务器上,生物信息学分析花费了 1 小时,这意味着该测定总共可以在 8 小时内运行,这比 NGS 和 SSP 方法节省了大量时间。在成本效益方面,假设在 MinION 流动槽上汇集 15 个样本,我们计算出血液 DNA 提取成本为 25 英镑,远程 PCR 为 3 英镑,条形码和文库制备为 10 英镑,流动槽成本为 27.36 英镑,在不提取 DNA 的情况下,总共花费 38 英镑。典型的商业 HLA 分型成本从 300 英镑到 800 英镑不等(https://azure.microsoft.com/en-gb/pricing/calculator/),这意味着样本计算成本为 2.87 英镑/样本(因为时间是按小时计费的)。
结论
在这项研究中,我们已经证明了在纳米孔测序系统上使用long-range PCR和测序技术进行全长人类白细胞抗原配型是非常准确的,比最近的替代方法更便宜,并且对于现场部署使用“手提箱中的实验室”的方法是可行的。这种方法利用纳米孔测序的便携性,再加上笔记本电脑和便携式聚合酶链式反应设备,以便在资源匮乏的条件下进行人类白细胞抗原分型。
目前的人类白细胞抗原分型方法依赖于高度特异性,但不是广泛的分析,如SSP分析,这些分析可以对单个等位基因进行排序,但不能提供整个感兴趣区域的深入重建。这意味着,对于更罕见的等位基因,尽管SSP提供了准确性,但这是以一种可以用于所有患者的检测为代价的。长程聚合酶链式反应提供的长扩增以前是使用短读测序进行的,我们的方法与纳米孔系统的长读能力相结合,提供了准确理解人类白细胞抗原区域的独特能力。
我们使用long-range PCR的优势在于,整个基因可以包含在一次PCR反应中,从而能够重建单倍型并准确解析人类白细胞抗原区域的复杂部分。它还需要有限的样本输入(通常为50 ng基因组DNA)。缺点是扩增反应的延伸阶段需要时间,最长的扩增片段(>10 kb)每个循环需要超过10 分钟,这意味着典型的用于HLA分型的长距离聚合酶链式反应需要长达3 小时。这种方法的优点是可以在资源相对匮乏的环境中实施,从而能够在中低收入国家使用。在构思时,我们最初的实验计划是一种可以用于LMIC的实验计划,作为昂贵和缓慢的国外HLA配型的替代方案。一种克服广泛的long-range PCR扩增缺点的替代方法可能是使用环介导的等温扩增(LAMP-PCR),这种方法具有快速的优点,但需要大量的引物重新设计。
这个问题的一个潜在解决方案是使用Cas9富集法从基因组DNA样本中提取人类白细胞抗原区域,然后进行连接反应并使用纳米孔设备进行测序。这有多个优点,第一个优点是能够以公正的方式检索感兴趣的人类白细胞抗原区域。此外,人类白细胞抗原区域的甲基化可以自然地从回收的DNA中取消,因为纳米孔系统具有检测甲基化碱基作为孔内信号变化的固有能力。这将提供理解人类白细胞抗原表达和甲基化之间的关系的能力。CAS9方法的一个缺点是输入需要相对大量的基因组dna(>3dna g),尽管血液样本通常会提供这一点,但dna提取必须仔细执行,以便最大限度地恢复 μ片段长度。基于旋转柱的提取通常可以获得>20 kb的片段,但对于类似于全长 (2 Mb)的读数,必须使用更奇异的DNA提取方法,如桑布鲁克和罗素方法或脉冲凝胶电泳法。这些方法将大大降低LMIC的可及性,并将限制这种类型的应用仅适用于研究环境。
纳米孔系统的另一个潜在好处是平行测序人类白细胞抗原的表达分析,以了解人类白细胞抗原表达对移植结果的影响。在同一检测方法中,准确的3-4个等位基因的现场分辨以及甲基化和表达数据将极有可能改变我们对该区域在人类白细胞抗原分型中的重要性的理解。有证据表明,II类系统的人类白细胞抗原分型在造血干细胞移植中相当重要,并且人类白细胞抗原的表达对这类移植的结果有影响。
我们用于重建人类白细胞抗原区域的算法(HLA-LA)具有显著的优势,因为它使用了人类白细胞抗原等位基因28的群体参考图来准确地重建高精度的人类白细胞抗原区域。人口参考图重建的一个问题是,它既需要计算也需要大量的内存,特别是对于长时间读取的纳米孔数据。我们正在与作者合作修改算法,以处理基于纳米孔的数据,以便在现场的计算机上重建是可行的。另一种选择是使用基于云的基础设施,其中纳米孔测序数据从现场上传,并实时调用人类白细胞抗原类型。这具有集中控制算法和质量保证的优点,但缺点是需要转移纳米孔测序运行的方法(通常为5-6 GB),这在LMIC中可能很难实现。
总之,我们介绍了使用纳米孔测序技术对所有 I 类和 II 类等位基因进行四个字段分辨率的方法。它具有成本效益、快速并且与短读长测序相比具有许多实际优势,我们建议它可能代表最适合 HLA 分型的未来方法。
long-range PCR:扩增较长的片段,可达30kb