写在前面
前一段时间帮助同事提取一些基因的UTR(Untranslated Region)在染色体上的位置。在我的印象中,UTR的概念很明确,但是定位很模糊。我知道它是位于mRNA链编码序列两端的非转录片段,但怎样从ensGene或refGene数据库中直接提取位置来,却没办法像外显子和内含子那样直截了当地给出答案。直觉让我认为UTR应该是独立于外显子和编码区以外的结构,但后来发现我似乎对它有什么误解。
UTR是外显子的一部分
为了搞清楚怎样从ensGene或refSeq数据库中直接提取5’UTR和3’UTR的位置,我先从Ensembl上搜索一个常见基因BRAC2,并选择了编码蛋白的最长转录本(ENST00000380152.7),点击红框里的内容查看每个外显子的位置。
下图展示了该转录本每个外显子和内含子的位置和序列,其中UTR的序列被标成了红色。可以看出该转录本的第一个外显子和第二个外显子的首端都是UTR区域:
最后一个外显子的末端也是UTR区域:
所以,我之前对UTR的印象是错误的,它其实是外显子的一部分。鉴于外显子是编码区(Coding Region)的一部分,故UTR也属于编码区。我从网上盗了一张我认为比较准确的基因结构关系图,放在下面:
从数据库提取UTR位置
refGene各列的意义如下: bin, name, chrom, strand, transcription start, transcription end, coding start, coding end, num exons, exon starts, exon ends, id, alt.name, coding start status (complete/incomplete), coding end status(complete,incomplete)和 exon frames。例如:
76 NM_001011874 1 - 3204562 3661579 3206102 3661429 3 3204562,3411782,3660632, 3207049,3411982,3661579, 0 Xkr4 cmpl cmpl 1,2,0,
ensGene和refGene数据库的格式基本一致,不多赘述。
其中 transcription start 和 transcription end 是编码区的转录起始和终止位置, coding start 和 coding end是CDS的起始位置和终止位置,也是起始密码子和终止密码子的位置。
因此,transcription start 和 coding start 之间的区域就是5'UTR,coding end 和 transcription end 之前的区域就是3’UTR。
参考
https://software.broadinstitute.org/gatk/documentation/tooldocs/3.8-0/org_broadinstitute_gatk_utils_codecs_refseq_RefSeqCodec.php