人类结构基因4个区域:①编码区,包括外显子与内含子;②前导区,位于编码区上游,相当于RNA5’末端非编码区(非翻译区);③尾部区,位于RNA3’编码区下游,相当于末端非编码区(非翻译区);④调控区,包括启动子和增强子等。基因编码区的两侧也称为侧翼顺序。
基因经过转录形成Pre mRNA,这里面包含着内含子和外显子(5端是以外显子打头,但是这段外显子不仅包含CDS,还包含5' UTR;3端是以外显子结束,但是这段外显子不仅包含CDS,还包含3' UTR),经过剪接形成成熟mRNA,内含子已减掉,如果抛开后来加上去的cap和poly A的话,这时全是外显子,但是不全是CDS,因为只有中间的那部分以起始密码子开始、以终止密码子结束的片段才是CDS,只有这部分才会被翻译成蛋白质。
一个mRNA EXON可能仅部分编码蛋白质,恰恰是上游或下游非编码区存在时。每个Exon的蛋白质编码部分由CDS元件表示。CDS元件还编码终止密码子。
对于存在非翻译区的区域,将出现UTR。UTR代表Exon的非蛋白质编码部分。UTR(Untranslated Regions)即非翻译区,是信使RNA(mRNA)分子两端的非编码片段。5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3'-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的末端。
其中一个基因有可能有多个转录本,原因是由于不同的剪接方式造成的。我们都知道,基因转录之后,首先是形成前体mRNA,通过剪切内含子连接外显子,5’端加帽及3’端加尾之后形成成熟的mRNA。
但是在剪切的过程中可能会剪切掉外显子,也有可能保留部分内含子,这样就形成了多种mRNA即多个转录本。
其中注意平时经常说到的promoter不属于intron和Exon的任何一个,属于Non Coding Sequence也是Regulatory Sequence。