癌症基因组重测序分析三/四

第三节主要内容:测序实验流程、测序原理及基本名词解释

1. 测序错误率原因:Phasing & Pre-phasing

Phasing & Pre-phasing

2. 碱基质量评估方法:Q20,Q30

Q20:该碱基的出错率为0.01;

Q30:该碱基的出错率为0.001;

因此可以得到一个质量Q=-10Log(P-value)

各碱基的质量一般会储存在fastQ文件当中。

3. 测序仪举例:NextSeq 500

Illumina NextSeq 500

有两种模式,分别为高通量模式和中通量模式。

高通量模式下一次可测1个人的全基因组或9个人全外或10个人的全转录组以及40个基因表达谱;

中通量模式下一次上机可测3个外显子组,6个靶向测序,96个扩增子测序和12个基因表达谱测序。

MiSeq, NextSeq 500以及Hiseq 2500比较


第四节主要内容:利用癌症基因组重测序的数据鉴定和注释肿瘤样本中存在的Somatic SNV以及Indel

一、概要

1. 基因组重测序reads回帖方法

2. Somatic SNV和Indel鉴定方法

3. FASTQ, BAM, PILEUP, VCF等文件结果说明

4. 便以为点注释方法

二、分析流程产生的文件类型

1. FASTQ 文件——测序仪给出的文件

FASTQ文件格式详解

Lane1: @+read的名字+read在follow cell上的坐标

Lane2: sequences

Lane3: read的信息描述

Lane4: 碱基质量打分

2. 基于FASTQ文件的测序质量评估——软件举例:FASTX-Toolkit

测序公司给出的原始测序数据我们需要首先对测序质量进行评估以确认所拿到的测序结果是否满足我们进行下游生信分析的需求。

FASTX-Toolkit软件举例

3. SomaticSNV和Indel生物信息分析主要流程:

与基因组比对→→→变异位点鉴定→→→变异位点注释

所对应的文件格式变化为:FASTQ files (下机数据) →→ BAM files (比对后) →→VCF files (变异鉴定软件处理后)

(1)软件举例:GATK

GATK分析流程

优缺点:

A.优点,分为三步:先比对,再对比对结果进行了优化和校正,校正之后对SNV和Indel的鉴定更有效;其次该软件在鉴定SNV和Indel的时候有很多不一样的模型,这些模型可以保证我们在进行突变鉴定时是准确的

B. 缺点:鉴定的SNV和Indel不适用于肿瘤SomaticSNV和Indel的鉴定;其次,对于一些突变频率万分之几,十万分之几的低频突变的敏感度不够高。

三、分析流程详解

1. Reads的基因组回帖

(1)定义:将测序得到的数目众多的Reads,比对到参考基因组序列,并允许一定的错配。

(2)比对方法:

Blast、Blat? 

这些方法速度慢且对短reads不太合适,因此现在将又短又多的reads比对到长长的基因组上,关键在于对reads集合建立索引或者对参考基因组序列建立索引,也可以同时对两者建立索引。

建立索引主要的两种方法为:

A. Algorithms based on hash tables: MAQ, SOAP, ELAND, SeqMap, RMAP, ZOOM, SHRiMP

B. Algorithms based on suffix tree: Bowtie, BWA, SOAP2等

对全基因组重测序下机数据进行回帖主要用BWA这个方法。

(3)BWA软件介绍

BWA这个软件主要有三个主要功能,分别适用于三种不同的测序结果和测序长度

BWA软件的三种功能

(4)基因组比对

主要分两步:先是建立索引,然后进行比对

BWA软件进行reads比对流程

$ bwa index hg19_genome.fa :对参考序列建立索引

$ bwa mem hg19_genome reads1.fq reads2.fq ﹥bwabam :用BWA的MEM功能将双端测序reads比对到参考基因组上

$ samtools sort bwa.bam ﹥bwa.sort.bam:得到的比对结果文件(BAM文件)需要再进行处理和优化,如按照染色体位置进行分类

$ samtools rmdup bwa.bam ﹥bwa.sort.rmd.bam:去除建库PCR过程产生的duplication

(5)基因组重测序reads回帖结果的校正

A. Indel Realignment

因为在Indel附近的SNV鉴定结果有很大概率不准确,因此在得到去重等处理之后的比对结果之后,还需要对比对结果进行Indel realignment的操作,从而筛去那些假阳性的SNV结果。

Indel Realignment workflow

GATK中Indel Realignment的功能可以分为两步:第一步输入dbSNP中的VCF文件(包含Indel信息),从而创建一个Indel坐标,第二步运用Indel Realigner,根据indel坐标信息将含有indel的reads进行重新的基因组回帖,得到优化的BAM文件。

indel Realignment处理前后的BAM文件结果比对

B. GATK对reads的碱基质量值进行校正

(6)基因组重测序reads回帖结果文件解读(SAM/BAM格式)

BAM文件是SAM文件的一个二进制形式

SAM/BAM文件举例

第一列:reads的名字

第二列:Flag,即reads的状态,是二进制数值累加的值,数值能够告知‘是单端测序还是双端测序’,‘mate-pair reads是否比对上参考基因组’等(samtools flags的含义

没有时间详细看给出学习链接的话可以参考下面的图

samtools flags含义解释举例

第三列:reads比对到的染色体

第四列:染色体上的位置, position

第五列:质量,值越高比对的错误率越低

第六列:CIGAR string:reads是以什么形式比对到基因组上的

GICAR字符释义
GICAR解读举例

比对结果:3M1I3M1D5M(3个比对上,1个insertion,3个比对上。1个deletion,5个比对上)

第七+八列:双端测序的mate-pair reads的比对情况

第九列:mate-pair reads之间的insertion size

第十列:reads详细的序列信息

第十一列:reads的碱基质量信息

PS:推荐补充学习材料

Sam和bam文件说明

The SAM Format Specification (v1.4-r985)

samtools常用命令详解

四、利用BAM文件鉴定肿瘤中特异存在的变异位点

比较:癌和癌旁

利用BAM文件鉴定肿瘤特异性突变分析流程
几种位点的解释示意图

Allele frequency 变异位点等位基因频率=变异reads/总的reads数,一方面反映了肿瘤纯度问题,另一方面反映了亚克隆存在情况问题。

1. 肿瘤组织中somatic mutation鉴定

(1)将BAM文件生成PILEUP文件

$ samtools mpileup -q l -f hg19_genome normal_bam ﹥normal_pileup

$ samtools mpileup -q l -f hg19_genome tumor_bam ﹥tumor_pileup

(2)根据normal和tumor的pileup文件,调用VarScan的somatic mutation程序,鉴定somatic mutation

$ java -Xmx8g -jar VarScan.jar somatic normal.pileup tumor.pileup --output-snp somatic.snp.output --output-indel somatic.indel.output

(3)对VarScan输出的SNP和Indel结果进行处理:将结果分成4类,分别为高可信度somatic mutation位点(output.snp.Somatic.hc),低可信度somatic mutation位点(output.snp.Somatic.lc),germline mutation位点(output.snp.Germline)以及杂合缺失位点(LOH sites)(output.snp.LOH)

$ java -jar VarScan.jar processSomatic somatic.snp.output 

2. Pileup文件格式解读

Pileup文件格式解读举例

第一列和第二列:所在染色体及其具体位置信息

第三列:参考基因组上的位点 (read base), 每个点(dot)代表这个碱基正向匹配到reference base, 每个逗号代表该碱基反向匹配到reference base. 如果是‘ACGTN’,说明这个碱基是个正向的mismatch,如果是‘actgn', 说明这个碱基是个反向的mismatch。这个样式 '\+ or - [0-9]+[ACGTNacgtn]+'是在这个reference position和下一个reference position之间的插入(insertion)或缺失(deletion)突变。加号代表插入,减号代表缺失,数字是插入或缺失的长度,数字后面的’ACGTN or acgtn'就是插入或缺失的碱基。

PS: 推荐附加阅读Pileup格式-生信技能树Pileup格式解读

第四列:碱基对应的深度

第五列:这个位点所对应的的位置的碱基的情况

第六列:碱基质量

3. 变异结果文件格式解读(VarScan)

VarScan运行结果解读举例

第一列和第二列表示的是比对上的染色体位置,分别为染色体,以及染色体上的具体位置;第三列是参考基因组上的碱基;第四列是VarScan鉴定出来的变异碱基;第五列(如例子中的27指的是癌旁组织中与参考基因组一样的碱基频数,40位癌旁组织中与变异位点一样的碱基频数,59.7%即为变异位点频率),‘Y’表示变异类型。后续的‘38’,‘44’和’53.66%’为癌组织中的相应的数值。

IUPAC Code对应表

somatic sites: a. 癌组织和癌旁组织存在显著差异; b.变异位点仅存在癌组织,癌旁组织中一点都没有

4. 其他鉴定体细胞变异方法举例

(1) Samtools

(2) Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads

在进行somatic mutation的鉴定时可以同时使用多个鉴定软件,这样得到的结果会相对更可靠。

5. VCF结果文件格式解读

VCF文件:分为两个部分,#开头的为注释部分,包括VCF的版本,缩写的含义等;#以下为主体文件部分。

vcf文件格式详解

推荐阅读:生物基因数据文件——vcf格式详解 vcf格式解读及vcftools简介(生信技能树)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容