突变需要学习的知识点

学习Jimmy直播我的基因组系列

SNV(经常会被混着SNP来称呼,我们先不纠结这个细节)

  1. 通常一个人的全基因组测序数据可以挖掘到四百万个SNVs(跟参考基因组不一样的单碱基位点),还有五十万的indels(insertions or deletions),但是得到的数据通常是以vcf文件格式给出的(自行搜索什么是vcf格式),比如下面:

2.首先记住一个很重要的知识点,变异是相对的!变异不等于突变。 简单说一下什么是找变异,变异跟突变有什么区别呢?举个栗子:有国际组织规定了人类的参考基因组(如UCSC,ENSEMBL,NCBI等,前面帖子都有讲),就是 AAAAA(这里简化一下,就5个碱基,其实人类基因组多达30亿个) 。现在通过给自己测序得知,我与之对应的是AGCAA,那么我相比国际基因组来说,就是2个变异位点,位于基因组的坐标2和3,但是它们还不能说就是突变。

如第二位碱基,虽然我的是G,参考基因组是A,但是全球已经测序了几百万人,而我查看了他们的测序结果,其中99万人都是G,这说明是参考基因组出现了问题,可能是国际组织当年恰好选择了一个人是A,所以就规定第二个碱基是A。所以虽然我用软件找到了我的这个位点相对于参考基因组是来说,是一个变异,但是这恰好是好事,完全不用担心,我们也不需要用突变这个单词来描述它!

那么接下来看第3位碱基,同样,国际组织规定了是A,而我却测了个C,但是全球已经公布的一百万人里面99.999万人都跟参考一样,就是A。有一个人和参考基因组对应的碱基不一样,不一样的那个人是个有病的患者,这个时候,你就惨了,这个变异,就是突变了!

很多变异其实只是造成人种多样性的原因,是构成人独特性的基础,而那些跟疾病相关的变异,我们通常就会叫做是突变

因我只举了2个极端的例子,所以大家可能会误以为,跟大多数人一样,就没事了!其实也并不是这样,一般来说,在正常人的数据库里面出现了5%的变异就可以认为没什么大的危害,而且变异还可以分成germline、somatic、de novo等情况,如果是特定性的针对某种疾病还可以找driver的mutation.

vcf就是一个尤为重要的基本数据格式,里面描述的是变异位点的信息,是一个表格形式,不同的表头下面有着不同的信息。VCF格式本来由千人基因组计划提出来,方便描述他们找到的海量(当时是海量)变异位点。本质上也是个文本文件而已,普通编辑器打开即可。但是它对每一行每一列有具体的定义,包括文件最前面一些#开头的注释信息(这个非常重要,后面每一个位点的描述的tag都在这个注释信息里面可以找到)

4.vcf文件的正文部分

vcf的正文部分,必须要有的是前面8列,一般来说可以有10列,分别是:

-1. #CHROM

  1. POS

  2. ID

  3. REF(参考序列的碱基)

  4. ALT(Variant的碱基)

  5. QUAL

  6. FILTER [来自于##FILTER]

  7. INFO

  8. FORMAT

  9. 可能会有样本的名称本

CHROM 和 POS:参考序列名和variant的位置;如果是INDEL的话,位置是INDEL的第一个碱基位置。

ID:variant的ID。比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用’."表示其为一个novel variant。

REF 和 ALT:参考序列的碱基 和 Variant的碱基。

QUAL:Phred格式(Phred_scaled)的质量值,表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。

FILTER:使用上一个QUAL值来进行过滤的话,是不够的。GATK能使用其它的方法来进行过滤,过滤结果中通过则该值为”PASS”;若variant不可靠,则该项不为”PASS”或”.”。

INFO:这一行是variant的详细信息,内容很多,以下再具体详述。

FORMAT 和 TTG11B:这两行合起来提供了’TTG11B′这个sample的基因型的信息。’TTG11B′代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。

image

前面7列都很简单,顾名思义,分别就是该变异位点位于参考基因组的哪条染色体,哪个位置,是否被一下数据库给标记了ID(通常说的是dbSNP),该位置的参考基因组是什么碱基,这个变异位点变异成了什么碱基。找到这个变异的软件给它的质量值是多少,是否合格。下面这个表格里面我们可以看到第十列就是'realign',可以看到比对时候@RG留下来的sam的样本名称,就可以知道这个vcf是经过realign的那个bam里面call出来的突变。

vcf只学七列是远远不够的,我们有必要下功夫把较为复杂的第8列和第9列的内容好好学习一下!

image

第8列 INFO 就非常复杂了,该列信息最多了,看起来是一列,但是里面可以无限包容,可以根据字段拆分成多列,都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的TAG含义在VCF文件的头部注释信息##INFO中已给出。

通常我们熟悉的tag有:

ACAF 和,AN[A开头的多和等位基因有关]:

AC(Allele Count) 表示该Allele的数目;

AF(Allele Frequency) 表示Allele的频率; 

AN(Allele Number) 表示Allele的总数目。

对于1个diploid sample[二倍体样本]而言

则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的 sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。

DP:reads覆盖度。是一些reads被过滤掉后的覆盖度。[注意,第八列和第九列都有DP,都表示该位点覆盖深度的信息,但是详细意义可能是不同的大家可以探究一下,在head里面就可以找到相应信息]

Dels:Fraction of Reads Containing Spanning Deletions。进行SNP和INDEL calling的结果中,有该TAG并且值为0表示该位点为SNV,没有则为INDEL。[这个值很重要,可以根据这个tag分离indel和snv]

image

如果你觉得call变异的软件默认给出的tag不符合你的要求,你可以继续用其它软件在该列里面不停的增加tag,我见过给该列直接添加到180个tag的,我们后面主要讲如何来添加tag。

有了这8列,已经是标准的vcf文件了,但是大家肯定会奇怪,还没有关于这个位点的基因型,测序深度的描述的信息。

这就是属于后面的第9列FORMAT规定的了,如果有多个样本,就会按照第九列的格式不停的增加下去。

第九列可以是GT,DP,FT,GL,PL,GP等等,都可以在该vcf文件的表头里面找到关于它们的解释。前面所讲的 ##FORMAT 表头部分 便是对第九列的解释

第九列相对于第八列来说没有那么复杂的信息,数据格式是比较固定的,其中包含的信息也很重要,主要是某一个特定位点基因型,测序深度的描述,因此有必要弄清楚。

image
image

第9列数据,包含两列内容,两列内容是对应的,前者为格式,后者为格式对应的数据。

GT:样品的基因型(genotype)。两个数字中间用’/"分 开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。

AD 和 DP:AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型; DP(Depth)为sample中该位点的覆盖度。

GQ:基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越 大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。

PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能 性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

最需要理解的就是DP4和GT了:

image

第十列的话就是样本的信息 可以在比对的时候使用@RG来做一个标记

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容

  • 部分摘自# VincentLuo91的博客 Part 1 VCF格式的学习 1.什么是vcf?VCF是用于描述SN...
    天秤座的机器狗阅读 24,716评论 3 55
  • 刘小泽写于18.12.31再次知识迭代:打算以上中下三篇来认识一个新事物上篇:主要了解VCF的背景知识;一般我们会...
    刘小泽阅读 10,030评论 2 37
  • 刘小泽写于18.7.17所有的数据,一旦要找变异位点信息,就离不开VCF。豆豆也是在写一个重测序的操作流程,遇到了...
    刘小泽阅读 33,143评论 2 73
  • 1)VCF格式简介 VCF格式:Variant Call Format,是用于表示SNP, indel, 和 st...
    oddxix阅读 11,061评论 0 6
  • 桂林市灵川县东源村委老塞村,这是我3月25日前行的目的地,此行的目的是为了一篇文章,在前往这个目的地之前,我有些犹...
    一个莲子阅读 321评论 0 4