RNA-seq学习:No.2测序基础知识

本次学习主要基于生信星球的文章测序的世界,站在巨人的肩膀上学知识,嘻嘻~

第一代测序技术:DNA双脱氧链复制法

首先先复习下DNA复制的概念,它以 DNA 为模板,在 DNA 聚合酶的催化作用下,将四种游离的 dNTP 按照碱基互补配对原则合成新链(互补) DNA 的过程。而且DNA碱基对间是靠氢键连接,一条链上的相邻核苷酸是靠磷酸二酯键相连。


DNA结构

在DNA双脱氧链复制法中,采用一种特殊的碱基--ddNTP,由于其2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应。由此获得的一个DNA片段的尾端核苷酸就知道了。


第一代DNA测序技术

如上流程,DNA双脱氧链复制法就是分别在4个DNA合成反应体系中加入带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP)。

比如在含有ddATP合成反应体系中,其它三种碱基均为普通的原料,最后得到所有类型的不同长度的片段,就可以知道A碱基在合成链上所有的分布;如上图得到TATACTGA两种片段,即可知在序列的第二与第六位为A碱基。

综合四个反应体系的结果就可以知道这条链的碱基序列,其互补链就是我们想要知道的DNA序列。该测序方法特点有

  • 测序读长可达1000bp,准确性高达99.999%;
  • 测序成本高,通量低,严重影响了其真正大规模的应用。

21世纪初的人类基因组计划(Human Genome Project, HGP)即是采用改良版的桑格(sanger)法进行对人体2.5万个基因的30亿个碱基对的测序


第二代测序技术

第二代测序技术称为高通量测序(High-ThroughputSequencing),又名下一代测序(Next Generation Sequencing NGS)。顾名思义,它们解决了第一代测序中的低通量的缺陷,同时大大降低测序成本,目前使用最广的是illumina公司的Solexa,Hiseq技术,其核心技术大致相同,介绍如下--

步骤一:构建文库

  • 目的:在需要测序的DNA片段两端加上能够与测序仪配合的接头序列。

获得目标物种的所有mRNA(转库组测序),反转录成DNA,超声波将待测的DNA样本打断成小片段(200-500bp)。然后由中间向两边分别加上三个重要的片段--


接头序列
  • 三种片段从外到里介绍如下

(1)Terminal Sequence:与流动槽(Flow Cell)结合的区域,通常只有P5片段与流动槽P5'结合。


Terminal Sequence

(2)Index序列,又称barcodes:index标签一般为8个碱基组成。
加标签的目的:一是由于一条通道(lane)上经常对多个样本DNA测序,每种样本的DNA都由一种index序列标记,这样就能根据已知的标签序列,分清所测得的样本序列了。二是在DNA两端会加入相同的标签,目的是为了在PE测序时,确定两次的结果是否来自同一个样本。(这里还要注意一下,如图,index1在右边;而index2在左边。在下面测序的介绍中就能理解了)


Index

(3)测序引物结合位点(Read Sequencing Primer ):为Read1和Read2测序引物结合的区域。
测序引物结合位点

步骤二:上样建簇

  • 目的是为了把一个片段扩增成一个簇;在后期荧光效应放大,便于检测
  • 在介绍前,先介绍下什么是流动槽 flow cell


    流动槽

    如图,流动槽为有多条通道(lane)的厚玻璃片,内表面种有2种DNA引物(P5' 与 P7)


    种有大量DNA引物片段的流动槽通道

1、将构建好的文库中的待测序列事先配置好一定的浓度流经过槽,在特异的化学试剂作用下,样品序列P5 端与 lane 上的P5' 互补配对 ,生成新链。


1
  • 此时通道上的P7端DNA引物暂时空着。
  • 第一轮扩增模板(上样): P5--P7,然后被强碱试剂冲走;
  • 第一轮结果:新合成的DNA链(P5'-P7')以共价键连接的方式结合在流动槽表面;


    2

2、桥式扩增:加入缓冲溶液,互补链的P7' 弯曲成桥状 和 lane 上的P7互补


3

4
  • 第二轮扩增模板(弯曲):P7'-P5'
  • 第二轮结果:P7--P5 (数量扩大一倍)


    5
  • 大约35个循环后,每个DNA片段都将在各自的位置上集中成束/簇(cluster),大概有5k到10k个。


    6
  • 利用甲酰胺基嘧啶糖苷酶(Fpg)切掉lane 上P5 连接的链,只留下了与lane P7连接的链(Forward Strand)。注意此时的P7--P5,即我们的样品DNA链。


    7

为了防止后续测序过程中不必要的DNA延伸,对流动槽上结合的所有DNA分子的3’端(最上端)进行封闭。

步骤三:测序

1、将Read 1测序引物加入流动槽,使其与待测DNA分子的接头序列结合。


8

2、加入特殊的四种核苷酸原料dNTP,有如下特点:

  • 3'羟基被叠氮基团替代。因此类似ddNTP,结合后就会中断下一个NTP的接合;但是可以改为正常NTP;
  • 四种dNTP分别带有四种荧光基团,激发四种不同的荧光。
    3、在第一个dNTP添加到合成链上后,中断继续合成,将所有未使用的游离dNTP和DNA聚合酶洗脱掉;然后加入激发荧光缓冲液,用激光激发荧光信号,光学设备记录荧光信号,计算机将光学信号转化为测序碱基;


    捕获通道荧光照片

    4、加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基,继续第二个碱基的合成如此重复直至所有链的碱基序列被检测出,得到了Forward Strand序列,然后read product被冲掉。


    9

    5、Index1 primer(引物)和链上的index1 互补配对,进行Index1的检测(为read1的标签)
    6、原始Forward strand(P7---P5)桥式互补,得到新的Reverse Strand(P5'---P7'),然后除去测完的Forward strand。
10

7、然后以上述同样的方法分别进行Index2 与 read2的测序。


11

以上是常见的双末端(Paired-end,PE)测序方法。对于过程中index2的测序还有些疑惑,暂且存疑!此外还有简单的单端(Single-Read)测序,操作就比较简单,测一遍即可。
从测序过程来看,其核心与第一代的sanger法大致相同,都采用了特殊的NTP,中断反应。不过第二代技术中采用了边合成边测序的方法(sequence by synthesis, SBS)

步骤四:后期图像处理

1、扫描出来的最原始的文件,它的格式是“.tiff”文件,记录了每个像素点上采集到的光强度。特点是完全无损,保留了所有的原始信息。但同时数据量太大,既不便于数据的传输,也不便于数据的存储,所以,测序仪在测序过程中,只把tiff文件作为中间文件。最后是把这个tiff文件删掉的。
2、计算机软件就把图像文件转化成光点文件,叫“.BCL”文件(Base calling),即每一个簇的光点,并记录其位置信息(在哪条lane的哪个tile里,以在tile里的坐标信息)与光强信息(这个光点当中“红、黄、蓝、绿”四种光的对应的光强。)。

tile是lane通道里划分的许多方块区域,照相也是根据tile来处理的。
光强信息里,最理想的情况是一个簇里只显示一种颜色,但由于存在误差,会有其它颜色的干扰。主要为Phasing与Prephasing两种误差,如下介绍:

image.png

3、根据荧光信息,识别对应碱基;然后进行read测序质量检测评价,主要是一个Quality Score(Q值)的打分,来衡量这个碱基被误判的可能性。

  • 计算方法:可能性换算出以10为底的对数,再乘以“-10”得到的数字;
    比如Q30,就是指一个碱基的可靠性达到99.9%;Q40,就是指一个碱基的可靠性是99.99%
  • 储存形式:Q值加上33,再用ASCII码表转换成一个字母。

做完上述这些,最终就得到了Fastq文件,其包含了测序中所得到的所有read片段的目录信息、序列信息(关键),Q值信息。基于此数据,就可以正式开始mRNA转录组分析了。

据我了解,其实测序工作是交给公司直接做就行了,一般会直接给我们测好的fastq文件。但是对于其中的一些基础知识还是要明白一些为好。以上是我学习整理的一些测序知识,如有错误,恳请指正。部分图片来自网上,侵删~


关于测序深度与测序覆盖率

在之前学习过程中,遇到上述两个概念,感觉还蛮重要的,补充到这里算是一个彩蛋吧~

1、测序深度(Sequencing Depth)

  • 指测序得到的总碱基数(bp)与所测物种基因组大小的比值(相当于测了几遍),其是评价测序量的重要指标之一;

举一例子来说:测序产生了1000条读段(read),每条读段的长度为50bp,所测物种的基因组大小为10000bp,那么测序深度为1000*50/10000=5X;

  • 一般来说,测序深度越深越好,当然还需考虑一个成本的问题。
  • 全基因组测序,一般测序深度为30X以上对检测基因组变异的可靠性会有很大帮助;
  • 测序产生的错误率或假阳性结果会随着测序深度的提升而下降。

2、测序覆盖度(Sequencing Coverage)

  • 指测序数据匹配到参考基因组上后,能够覆盖基因组的区域比率。

举一例子来说:测序产生了1000条读段(read),每条读段的长度为50bp,所测物种的基因组大小为10000bp,测序读段匹配到参考基因组后能够覆盖9000bp的参考基因组,那么测序覆盖度就为9000/10000=90%。

  • 因为基因组有些区域重复序列较复杂或测序难以捕获到,那么这些区域可能就不会被测序读段所覆盖。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容