下一代测序技术(Next-Generation Sequencing, NGS)是近十年来生命科学领域迅猛发展的分支之一,它包括但不限于以下技术:
全基因组测序(Whole Genome Sequencing, WGS)用于揭示生物体完整的DNA组成,使我们能够更好地了解物种内部和物种之间的差异,这反过来又使我们能够以其他技术所不允许的精密度来区分生物体。
基于酶切的简化基因组测序(Restriction-site Associated DNA Sequence, RAD-Seq)是对与限制性核酸内切酶识别位点相关的 DNA 进行高通量测序,可快速鉴定出高密度的SNP位点,实现遗传进化分析及重要性状候选基因的预测。
转录组测序技术(RNA-Seq),就是把 mRNA,smallRNA 和 non-coding RNA 等或者其中一些用高通量测序技术把它们的序列测出来,反映出它们的表达水平。
染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)是研究体内蛋白质与 DNA 相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的 DNA 片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。
这些技术也被称为高通量测序技术因为他们可以产生大量数据,也使得生物信息学进入了大数据时代。在这其中,以下格式的文件常被用到:
- FASTA 格式:一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为生物信息学领域的一项标准。其第一行是由大于号“>”(较常用)或分号“;”打头的任意文字说明,用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号(参见支持代码类型)。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。一般每行60~80个字母。
>gi|187608668|ref|NM_001043364.2|Bombyx mori moricin (Mor), mRNA
AAACCCTTACTGGGCTGATCGCGCGTCGGGATCGGCTAGCTAGCTAGCGCTCTAGCTAGCTAGCTAGCTA
GCTAGCTAGCTAGCACACACACACACACACACGTGTAGTCATAACGTACGTACGTAACACGTACACTGTA
- FASTQ 格式:是序列格式中常见的一种,FASTQ格式的序列一般都包含有四行,第一行由'@'开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。第二行是序列。第三行由'+'开始,后面也可以跟着序列的描述信息。第四行是第二行序列测序的质量评价,字符数跟第二行的序列是相等的。
@EAS54_6_R1_2_1_413_324
CCCGGTCGTAGTTTCGATGGCTAG
+
;;3;;;;;;;;;;;8;;;;7;;8
- SAM/BAM 格式:SAM 格式为纯文本格式,字里行间压缩了极大的信息。BAM 格式则是SAM 格式的二进制版,在SAM 格式的基础上运用二进制编码,又极大的压缩了SAM 格式的体积。
@HD VN:1.6 SO:coordinate
@SQ SN:ref LN:45
r001 99 ref 7 30 8M2I4M1D3M = 37 39 TTAGATAAAGGATACTG *
r002 0 ref 9 30 3S6M1P1I4M * 0 0 AAAAGATAAGGATA *
r003 0 ref 9 30 5S6M * 0 0 GCCTAAGCTAA * SA:Z:ref,29,-,6H5M,17,0;
r004 0 ref 16 30 6M14N5M * 0 0 ATAGCTTCAGC *
r003 2064 ref 29 17 6H5M * 0 0 TAGGC * SA:Z:ref,9,+,5S6M,30,1;
r001 147 ref 37 30 9M = 7 -39 CAGCGGCAT * NM:i:1
- VCF 格式:是存储变异位点的标准格式,可以用来表示单核苷酸多态性(SNP)、插入缺失、结构变异 、拷贝数量变异。VCF使用UTF-8编码,有两大部分:一部分是注释信息(以##开头),一部分是具体突变信息。
##fileformat=VCFv4.2
##fileData=20190709
##source=myData
##reference=file:///seq/reference/gennomeproject/Iamhappy.fasta
##contig=<ID=20, length=52000000, assmbly=B31, md5=sqs5qjfieije8sjqksq987, species="Homo sapiens", taxonomy=x>
##phasing=partial
##INFO=<ID=NS, Number=1, Type=Integer, Description="Number of Samples With Data">
##INFO=<ID=DP, Number=1, Type=Integer, Description="Total Depth">
##INFO=<ID=AF, Number=A, Type=Float, Description="Allele Frequency">
##FILTER=<ID=q10, Description="Quality below 10">
##FORMAT=<ID=GT, Number=1, Type=String, Description="Genotype">
##FORMAT=<ID=GQ, Number=1, Type=Integer, Description="Genotype Quality">
##FORMAT=<ID=DP, Number=1, Type=Integer, Description="Read Depth">
##FORMAT=<ID=HQ, Number=2, Type=Integer, Description="Haplotype Quality">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA0001
20 14307 rs1234567 G A 28 PASS NS=3;DP=14;AF=0.5;DB;H2 GP:GQ:DP:HQ 0|0:48:1:51,51
在下一章中我们将进入实例。
小结
在这一章中我们学习了:
- 下一代测序技术的主要技术分支
- 下一代测序技术的主要文件格式