第三节主要内容:测序实验流程、测序原理及基本名词解释
1. 测序错误率原因:Phasing & Pre-phasing
2. 碱基质量评估方法:Q20,Q30
Q20:该碱基的出错率为0.01;
Q30:该碱基的出错率为0.001;
因此可以得到一个质量Q=-10Log(P-value)
各碱基的质量一般会储存在fastQ文件当中。
3. 测序仪举例:NextSeq 500
有两种模式,分别为高通量模式和中通量模式。
高通量模式下一次可测1个人的全基因组或9个人全外或10个人的全转录组以及40个基因表达谱;
中通量模式下一次上机可测3个外显子组,6个靶向测序,96个扩增子测序和12个基因表达谱测序。
第四节主要内容:利用癌症基因组重测序的数据鉴定和注释肿瘤样本中存在的Somatic SNV以及Indel
一、概要
1. 基因组重测序reads回帖方法
2. Somatic SNV和Indel鉴定方法
3. FASTQ, BAM, PILEUP, VCF等文件结果说明
4. 便以为点注释方法
二、分析流程产生的文件类型
1. FASTQ 文件——测序仪给出的文件
Lane1: @+read的名字+read在follow cell上的坐标
Lane2: sequences
Lane3: read的信息描述
Lane4: 碱基质量打分
2. 基于FASTQ文件的测序质量评估——软件举例:FASTX-Toolkit
测序公司给出的原始测序数据我们需要首先对测序质量进行评估以确认所拿到的测序结果是否满足我们进行下游生信分析的需求。
3. SomaticSNV和Indel生物信息分析主要流程:
与基因组比对→→→变异位点鉴定→→→变异位点注释
所对应的文件格式变化为:FASTQ files (下机数据) →→ BAM files (比对后) →→VCF files (变异鉴定软件处理后)
(1)软件举例:GATK
优缺点:
A.优点,分为三步:先比对,再对比对结果进行了优化和校正,校正之后对SNV和Indel的鉴定更有效;其次该软件在鉴定SNV和Indel的时候有很多不一样的模型,这些模型可以保证我们在进行突变鉴定时是准确的
B. 缺点:鉴定的SNV和Indel不适用于肿瘤SomaticSNV和Indel的鉴定;其次,对于一些突变频率万分之几,十万分之几的低频突变的敏感度不够高。
三、分析流程详解
1. Reads的基因组回帖
(1)定义:将测序得到的数目众多的Reads,比对到参考基因组序列,并允许一定的错配。
(2)比对方法:
Blast、Blat?
这些方法速度慢且对短reads不太合适,因此现在将又短又多的reads比对到长长的基因组上,关键在于对reads集合建立索引或者对参考基因组序列建立索引,也可以同时对两者建立索引。
建立索引主要的两种方法为:
A. Algorithms based on hash tables: MAQ, SOAP, ELAND, SeqMap, RMAP, ZOOM, SHRiMP
B. Algorithms based on suffix tree: Bowtie, BWA, SOAP2等
对全基因组重测序下机数据进行回帖主要用BWA这个方法。
(3)BWA软件介绍
BWA这个软件主要有三个主要功能,分别适用于三种不同的测序结果和测序长度
(4)基因组比对
主要分两步:先是建立索引,然后进行比对
$ bwa index hg19_genome.fa :对参考序列建立索引
$ bwa mem hg19_genome reads1.fq reads2.fq ﹥bwabam :用BWA的MEM功能将双端测序reads比对到参考基因组上
$ samtools sort bwa.bam ﹥bwa.sort.bam:得到的比对结果文件(BAM文件)需要再进行处理和优化,如按照染色体位置进行分类
$ samtools rmdup bwa.bam ﹥bwa.sort.rmd.bam:去除建库PCR过程产生的duplication
(5)基因组重测序reads回帖结果的校正
A. Indel Realignment
因为在Indel附近的SNV鉴定结果有很大概率不准确,因此在得到去重等处理之后的比对结果之后,还需要对比对结果进行Indel realignment的操作,从而筛去那些假阳性的SNV结果。
GATK中Indel Realignment的功能可以分为两步:第一步输入dbSNP中的VCF文件(包含Indel信息),从而创建一个Indel坐标,第二步运用Indel Realigner,根据indel坐标信息将含有indel的reads进行重新的基因组回帖,得到优化的BAM文件。
B. GATK对reads的碱基质量值进行校正
(6)基因组重测序reads回帖结果文件解读(SAM/BAM格式)
BAM文件是SAM文件的一个二进制形式
第一列:reads的名字
第二列:Flag,即reads的状态,是二进制数值累加的值,数值能够告知‘是单端测序还是双端测序’,‘mate-pair reads是否比对上参考基因组’等(samtools flags的含义)
没有时间详细看给出学习链接的话可以参考下面的图
第三列:reads比对到的染色体
第四列:染色体上的位置, position
第五列:质量,值越高比对的错误率越低
第六列:CIGAR string:reads是以什么形式比对到基因组上的
比对结果:3M1I3M1D5M(3个比对上,1个insertion,3个比对上。1个deletion,5个比对上)
第七+八列:双端测序的mate-pair reads的比对情况
第九列:mate-pair reads之间的insertion size
第十列:reads详细的序列信息
第十一列:reads的碱基质量信息
PS:推荐补充学习材料
The SAM Format Specification (v1.4-r985)
四、利用BAM文件鉴定肿瘤中特异存在的变异位点
比较:癌和癌旁
Allele frequency 变异位点等位基因频率=变异reads/总的reads数,一方面反映了肿瘤纯度问题,另一方面反映了亚克隆存在情况问题。
1. 肿瘤组织中somatic mutation鉴定
(1)将BAM文件生成PILEUP文件
$ samtools mpileup -q l -f hg19_genome normal_bam ﹥normal_pileup
$ samtools mpileup -q l -f hg19_genome tumor_bam ﹥tumor_pileup
(2)根据normal和tumor的pileup文件,调用VarScan的somatic mutation程序,鉴定somatic mutation
$ java -Xmx8g -jar VarScan.jar somatic normal.pileup tumor.pileup --output-snp somatic.snp.output --output-indel somatic.indel.output
(3)对VarScan输出的SNP和Indel结果进行处理:将结果分成4类,分别为高可信度somatic mutation位点(output.snp.Somatic.hc),低可信度somatic mutation位点(output.snp.Somatic.lc),germline mutation位点(output.snp.Germline)以及杂合缺失位点(LOH sites)(output.snp.LOH)
$ java -jar VarScan.jar processSomatic somatic.snp.output
2. Pileup文件格式解读
第一列和第二列:所在染色体及其具体位置信息
第三列:参考基因组上的位点 (read base), 每个点(dot)代表这个碱基正向匹配到reference base, 每个逗号代表该碱基反向匹配到reference base. 如果是‘ACGTN’,说明这个碱基是个正向的mismatch,如果是‘actgn', 说明这个碱基是个反向的mismatch。这个样式 '\+ or - [0-9]+[ACGTNacgtn]+'是在这个reference position和下一个reference position之间的插入(insertion)或缺失(deletion)突变。加号代表插入,减号代表缺失,数字是插入或缺失的长度,数字后面的’ACGTN or acgtn'就是插入或缺失的碱基。
PS: 推荐附加阅读Pileup格式-生信技能树,Pileup格式解读
第四列:碱基对应的深度
第五列:这个位点所对应的的位置的碱基的情况
第六列:碱基质量
3. 变异结果文件格式解读(VarScan)
第一列和第二列表示的是比对上的染色体位置,分别为染色体,以及染色体上的具体位置;第三列是参考基因组上的碱基;第四列是VarScan鉴定出来的变异碱基;第五列(如例子中的27指的是癌旁组织中与参考基因组一样的碱基频数,40位癌旁组织中与变异位点一样的碱基频数,59.7%即为变异位点频率),‘Y’表示变异类型。后续的‘38’,‘44’和’53.66%’为癌组织中的相应的数值。
somatic sites: a. 癌组织和癌旁组织存在显著差异; b.变异位点仅存在癌组织,癌旁组织中一点都没有
4. 其他鉴定体细胞变异方法举例
(1) Samtools
(2) Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads
在进行somatic mutation的鉴定时可以同时使用多个鉴定软件,这样得到的结果会相对更可靠。
5. VCF结果文件格式解读
VCF文件:分为两个部分,#开头的为注释部分,包括VCF的版本,缩写的含义等;#以下为主体文件部分。