主要转自对看不懂变异的命名规则怎么办?以及教你看懂基因检测中的那些变异的学习
HGVS,全称是Human Genome Variation Society,即人类基因组变异协会的缩写。它制定了一套规则,告诉人们如何描述一个变异,以便于学术交流和计算机识别。
在命名时,需要在DNA、RNA和蛋白质三个层面描述同一个变异,这充分体现了此命名法则对变异本身功能性体现的考虑。
变异的前缀用于指出变异位于哪种序列中
“g.”表示基因组序列,如g.455G>T。
“c.”表示Coding(编码)DNA序列,如c.455G>A。
“m.”表示线粒体DNA序列,如m.766T>C。
“n.”表示非编码RNA序列。
“r.”表示RNA序列,如r.76a>u。
“p.”表示蛋白质序列,如p.Lys76Asn。
对于突变的所有描述,最靠近参考序列3'端的描述优先考虑;应用于所有关于基因组,基因,转录本,蛋白的相关突变描述。这句话怎么理解呢?序列从5’端向3’端读取,描述靠近3’端的变化。例如:CTAGAGGTC这段序列变异为CTAGGTC,我们优先描述为缺失后面的AG,而不是前面的AG。通俗地讲就是“能往下读就往下读,读不动了再说”。
表述符号
“>”(大于号)表示碱基替换,如c.123G>A。
“del”表示缺失,如c.76delA。
“dup”表示重复,如c.76dupA。
“ins”表示插入,如c.76_77insG。
“delins”表示同时有缺失和插入,如c.112_117delinsTG。
“inv”表示倒位,如c.76_83inv。
“con”表示转换,如NC_000022.10:g.42522624_42522669con42536337_42536382。
“fs”表示移码(frame shift),变异导致在起始密码子和终止密码子之间的开放阅读框发生改变,如p.Arg456GlyfsTer17(或p.Arg456Glyfs * 17)。
“ext”表示延伸(extension),变异发生在起始密码子或终止密码子上,导致氨基酸序列较之原序列变长了。如p.Met1 ext -5。
特定含义的字符
“ + ”用于核苷酸编号 ; c.123 + 45A>G
“ - ”用于核苷酸编号 ; c.124-56C>T
“ * ”用于核苷酸编号并表示翻译终止(终止)密码子; c.* 32G> A 或 P.Trp41 *
“ _ ”用于表示范围; g.12345_12678del
“ [ ] ”用于等位基因:
“ ; ”用于分开变异和等位基因; g.[123A>G; 345G>C]或g.[123A> G]; [345G> C]
“ ,”用于分开源自一个等位基因的不同转录物或蛋白质; r.[123a> t,122_154del]
“ :”用于将参考序列与变异描述分开; NC_000011.9:g.1234G>A
“ ()”用于表示不确定性和预测后果; NC_000023.9:g.(1234_2345)_(3456_4567)del,p.(Ser123Arg)
注意:不确定性的范围应尽可能精确地描述
“ ?“用于表示未知位置; g.(?_ 2345)_(3456 _?)del
“ ^ ”用于或者的意思; c.(370A>C ^372C>R)作为p.Ser124Arg的反向翻译
“ = ”用于表示未被发现的测试序列; p.(Arg234=)
“ / ”用于表示嵌合体(同合子)
“ // ”用于表示嵌合体(不同合子)
其余细则见教你看懂基因检测中的那些变异
以下是基因检测结果表格示意,其中第3-4列使用了HGVS命名法则。
染色体位置:写清版本号
在描述一个变异在某个染色体上的坐标时,参考基因组的版本号是需要标明的(人类参考基因组序列及其版本(1))。目前使用较多的是GRCh37/hg19和GRCh38/hg38。其中基于GRCh37/hg19的注释软件和数据库较为完备,在临床检测中仍有较多使用。新版本GRCh38/hg38的总体组装碱基数量要多于旧版本GRCh37/hg19,但也因此造成两个版本基因组坐标不同。
chr6:35927523
代表6号染色体的35927523位置发生变异(基于GRCh37/hg19版本的坐标)
编码序列位置:注意转录本
基因检测结果表格第3列有以“c.”开头的变异命名,这代表了编码序列(coding DNA reference sequence)上变异的相应位置。
chr6:35927523,c.1384delG
代表6号染色体的35927523位置发生变异,对应SLC26A8基因NM_138718转录本的第1384位,此位置发生了G碱基的缺失。
转录本如不注明(见第5列,1个位点不同转录本导致2个判定结果的坑,你遇到过没?),仅根据c.1384delG这样的描述,是没有办法还原为参考基因组变异位置的。
蛋白序列位置:也要对应转录本
表格第4列为“p.”开头,表示蛋白序列(protein reference sequence)上面变异的相对位置。
chr6:35927523,c.1384delG,p.V462fs
代表6号染色体的35927523位置发生变异,对应SLC26A8基因NM_138718转录本的第1384位,此位置发生了G碱基的缺失,导致了相应蛋白序列462位的缬氨酸(V)处发生移码变异(fs, frameshift)。
总之,染色体位置、编码序列位置和蛋白序列位置三者的关系可以表示为下图:
HGVS命名部分简写形式
SNV变异
【编码序列】所有的SNV变异均为碱基替换,以符号“>”进行表示;如:c.123A>T,表示与参考序列相比,第123位的A被T所取代;
【蛋白序列】错义突变,写法如p.Trp26Cys,表示第26位的Trp被Cys取代;无义突变,写法如p.Trp26*或p.W26X,表示26位的Trp变成终止密码子。
InDel变异
【编码序列】InDel变异会导致碱基的插入或(和)缺失。插入指与参考序列相比,一个或多个碱基增加的现象,如c.5756_5757insAGG,则表示在第5756 与5757位点之间插入了三个碱基AGG;而c.2052delAGG,表示与参考序列相比,第2052位发生AGG的缺失。另外,碱基可同时发生插入和缺失,如c.6775delTCinsGA,表示与参考序列相比,第6775位缺失了TC,被GA取代。最后,另外,对于8个T变成9个T,或者5个AG变成6个AG这种短序列重复有特殊的写法,如c.6_8dupT,表示从第6位到第8位发生了T的重复。
【蛋白序列】移码突变,写法如p.G48fs,表示第48位从甘氨酸处发生移码突变;非移码突变,写法如p.Arg75_Asp76insGly,表示75和76位中间插入一个甘氨酸。
剪切位点变异
SNV和InDel变异均会造成选择性剪切突变,这种变异没有特别的写法,一般需要注意其发生的位置。例如,c.464-2A>T表示外显子边界-2bp处发生了A到T的变异,将影响剪切。由于此类位点通过影响剪切体危害蛋白结构,有致病可能性。
相信您已经可以读懂检测报告上的变异命名了。更多关于HGVS命名法则的信息见
http://varnomen.hgvs.org/recommendations/general/。
参考文献:
[1]Den Dunnen J T, Dalgleish R, Maglott D, et al. HGVS Recommendations for the Description of Sequence Variants: 2016 Update[J]. Human Mutation, 2016, 37(6): 564-569.