Pacbio和Nanopore测序技术之拳王争霸

作者:May
审稿:童蒙
编辑:amethyst

引言

大家好,又到了阿拉丁聊基因组的时间了。今天我们按照上期的计划,我们来聊一下基因组测序技术中的两大神兵利器之--Pacbio和Nanopore。如今在基因组圈里走天下的各种大佬,这两种技术可是家喻户晓。基因组的重点在于contig的连续度和准确度,我们一直在期待可以直接把染色体测通,但是我们人类一直在努力,可从未超越。因此,我们在测序的道路上不断的尝试和努力,从二代测序测序一路披荆斩棘迈向了三代测序。因此,基因组的连续度迅速增加,享受了科技带来的福利。PacBio和Nanopore做为目前主流的长读长测序平台,二者分庭抗礼,各有所长,那么我们该怎么选择呢?下面将从二者的测序原理、错误类型,实际应用等方面展示两种测序平台各自的优缺点,至于如何选择,大家因需取求。

1.PacBio和Nanopore不同方面的对比

1.1测序原理对比

PacBio测序基于边合成边测序的原理。实时记录荧光信号,转化为单碱基信息,获得具有单碱基分辨率的高精度序列。PacBio测序依赖DNA聚合酶活性,DNA聚合酶和带有不同荧光标记的dNTP,放置到纳米孔的底部的聚合酶进行DNA合成反应。当dNTP进入DNA模板链、引物和聚合酶复合物中发生链延伸反应,同时通过检测dNTP荧光信号,获得荧光信号图像,最后将光学峰转化为碱基(图1)。PacBio sequel平台下机数据为bam格式,包含三个文件:bam 文件,bam.pbi 文件,以及xml文件。此刻,请大家注意,该bam文件与比对到基因组生成的bam文件格式大体一致,但是同中有异。Pacbio测序获得的bam文件可以转化为fasta,然后可以使用各种软件进行组装。

图1 PacBio测序原理

Nanopore测序是基于电信号检测原理,当DNA分子穿过纳米孔时会产生电流信号,一般以5个碱基为一组检测电流信号,对电流信号进行解码(图2)。Nanopore测序不依赖DNA聚合酶活性,理论上只要DNA分子不断开,就一直可以通过纳米孔,得到的序列读长更长,最长可达Mb级别。Nanopore下机的原始电信号文件,以.fast5结尾,包含测序的序列信息和甲基化修饰信息。经过basecalling软件(Guppy,Albacore等)可以将fast5文件转换为fq文件进行后续分析。一般根据Q score>7对数据进行质控,通过的为pass,没有通过为fail。

图2 Nanopore测序原理

1.2建库测序模式对比

PacBio测序有两种模式,一种是CLR模式,另一种是CCS模式。对于长插入片段文库,产生的序列的一般少于2 passes的(pass即环绕测序的次数),得到的reads称为Continuous Long Reads(CLR), 当文库插入片段相对较短时,测序后会产生多个passes,来源于同一个孔的多条reads通过一致性校正,得到一个准确度较高的reads,称为Circular Consensus Sequencing(CCS)Reads(图3),全长转录组或全长16S测序通常使用这种模式进行测序。CCS reads在测序后经过Subreads自身的校正,准确率大幅度提升,根据官方报道,人类样品经过CCS测序模式,序列准确率能够达到99.8%,在准确度上可以与二代Illumina测序的数据质量匹敌,Illumina的测序准确度为99.9%(Wenger et al., 2019)。

图3 PacBio文库及产生序列类型

Nanopore有三种建库方式,主要在接头上的差异,根据加入不同的接头可以分为1D、2D和1D2文库。1D文库加入引导接头(Leading Adaptor),2D既有引导接头,还有连接双链DNA分子的发夹接头(Hairpin Adaptor),1D2测序先加入1D2接头,再连接引导接头。当模板链完成测序后,互补链的马达蛋白被捕获进行互补链测序(图4)。从目前应用最多的是1D文库。除此之外,Nanopore还有另一种获得超长reads的测序方式,称为Ultra-Long测序,序列读长普遍大于一般文库,最长可达Mb级别,是不是很诱人。

图4 Nanopore文库及产生序列类型

1.3错误类型对比

任何一种技术都不是完美的,都有自己的缺陷,那么Pacbio和Nanopore也一样不能逃脱错误的命运。以上我们了解了PacBio和Nanopore的测序原理之后,我们来看一下两种技术在错误方面的表现吧。

Pacbio的CLR模式下,一般的错误率在10-15%左右,但是这种错误是随机错误,主要类型为Indel和Mismatch,但是此类错误类型及碱基类型均无偏向性,这种缺陷可通过自身纠错获得准确度高达QV50(99.999%)的序列(图5)。

图5. PacBio错误类型

Nanopore的测序错误除Indel和Mismatch之外,主要是同聚物(homopolymer)和串联重复区域的错误(Wick et al., 2019),特别是同聚物删除(homopolymer deletion) 的错误较高(图6)。另外,有研究表明基因组中反向重复序列序列会使Nanopore的测序质量下降,得到的序列准确度受到影响(Spealman et al., 2019)。因此,基因组重复比较高的物种,使用此技术要小心了,可能在重复区域准确度不一定高,如果该区域Pacbio不能跨越的话,此技术还是比较好,毕竟有总比没有强。

图6. Nanopore错误类型

2.PacBio与Nanopore的效果评价

测序获得的序列读长是基因组组装的关键因素,因此,长读长测序技术引领基因组进入N50为Mb级别的时代。PacBio与Nanopore测序虽然存在一定错误,但当达到一定的测序深度时,在组装过程中绝大多数测序错误可以通过自身的校正被修正,因此都可以获得相对高质量的的基因组,也成为了目前基因组组装的首选。

利用PacBio测序组装的基因组近年已经发表了很多文章,基于此的组装软件目前也比较多,PacBio 官方推出了组装软件FALCON。其他软件如Canu,WTDBG,SmartDenovo等应用也很广泛,这些软件同样可以用于Nanopore组装。PacBio通量提高后,使用HiFi模式获得长读长、高准确度的CCS序列, PacBio通过HiFi模式测序的得到的30XCCS数据,通过Falcon,Canu和WTDBG2等不同软件组装,contig N50达到15.43-28.95Mb,组装连续性与CLR reads相当,准确率大幅提升(Wenger et al., 2019)。

Nanopore的优势在于其超长的读长,在人类基因组中通过~30X reads和~5X的Ultra-Long reads,最长reads达到882Kb,组装出人类基因组contig N50达到6.4M(Jain et al., 2018)。但是Nanopore的同聚物错误使得这些错误往往出现在基因组某些特定的序列或区域,造成自身纠错和用二代数据校正无法纠正,序列错误和真实变异难以区分,影响组装基因组的准确性。

3. 二者优缺点

看了这么多,一起来总结一下这两种技术的优缺点。Pacbio和Nanopore就像两个学校的尖子生一样,具有不同的性格。Pacbio学生每次考试注重每道题的正确率,可能要花很长时间来做一道题,一种笨鸟先飞的特性,一次不能保证正确率,就多检查几次,提高答题的准确度。而Nanopore学生具有另一种品质,做题非常快,但是几乎不检查。因此,Nanopore学生可以完成比Pacbio学术更多的考题。最后,在提交的答卷中,Nanopore学生的答卷一般情况下都比Pacbio学生的答卷完成的题目多。但是,最终得分,需要老师来评价。这个老师就是我们每个研究者自己。

Pacbio追求的是质量,使用的是光信号,因此可以通过多测几次,来提高测序的准确度,但是这种方法也有它自身的限制,酶的活性决定了它不能够测的特别长。

Nanopore追求的是长度,采用的是电信号,对于一条DNA,最多测两次,电信号的稳定性是最大的挑战,因此在测序准确度上做了让步。这种电信号也为它打开了许多大门,可以测很多东西,比如直接RNA测序,甚至蛋白测序。

下期预告

基础知识了解完了,那我们下期就面对疾风吧——实战来袭。

参考文献

Jain, M., Koren, S., Miga, K.H., Quick, J., Rand, A.C., Sasani, T.A., Tyson, J.R., Beggs, A.D., Dilthey, A.T., Fiddes, I.T., et al. (2018). Nanopore sequencing and assembly of a human genome with ultra-long reads. Nat Biotechnol 36, 338-345.

Spealman P, Burrell J, Gresham D. Nanopore sequencing undergoes catastrophic sequence failure at inverted duplicated DNA sequences. BioRxiv, 2019: 852665.

Wenger, A.M., Peluso, P., Rowell, W.J., Chang, P.C., Hall, R.J., Concepcion, G.T., Ebler, J., Fungtammasan, A., Kolesnikov, A., Olson, N.D., et al. (2019). Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome. Nat Biotechnol 37, 1155-1162.

Wick, R.R., Judd, L.M., and Holt, K.E. (2019). Performance of neural network basecalling tools for Oxford Nanopore sequencing. Genome Biol 20, 129.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容