Read Genome
在获得基因组序列后,需要对它包含的基因进行解读和注释,这部分是对基因图谱的"内容“进行介绍。含
基因的数目,基因的分类,基因的结构,基因的表达,基因簇,基因组的“暗物质”等部分。要求同学门掌握各种名词和概念。
1. 基因数目
前面提到过C-paradox,基因组的大小与基因数目、生物的进化程度没有严格的对应关系。如酵母只有6000个左右的编码基因,人的基因组编码了25000个蛋白,水稻大约有4万个基因。
那么一个物种的基因组所含基因的数目是如何来确定的呢?或者说如何判断染色质上哪些DNA是基因,哪些不是。这里需要实验和生物信息学结合来完成破解。比如,在了解基因编码的规律后,设计的GeneScan等程序,能直接预测基因;利用转录组信息,可以直接获得基因的序列;利用已只的基因信息,搜索基因组上的同源基因。
2. 基因的分类
每个真核生物都有成千上万的基因,为了研究和描述的方便,我们会对基因进行各种分类。比如根据基因控制的性状分类,根据基因表达量的高低分类。最常见的是根据基因的序列相似性进行分类,基因序列(或编码的蛋白序列)越相似,功能往往越接近或相同。同一类的基因就可以聚为一个基因家族(Gene family)。同一个基因家族的成员,序列相似,可能由一个“祖先”进化而来,也就是同源基因(homolog)。同源基因直系同源(ortholog)和旁系同源(paralog)。也有一些孤儿基因,它没有任何同源基因。
3. 基因的结构
基因是一段DNA序列。但在真核生物中,基因是“断裂”的(split gene)。许多真核生物的基因由内含子、外显子组合而成。其中,两端还有非翻译区。
4. 基因的表达
基因表达的产物
5. 基因簇
在基因组上,一些功能相关的基因可能会排列在一起,形成基因簇。比如植物中的许多R基因编码NBS-LRR蛋白,而这些NBS-LRR基因常常聚集在一起,而且由一些是没有功能的“假基因”(pseodo gene)。基因簇的形成一般和染色体易位、转座有关形成部分片段DNA重复有关。
6. 基因组的“dark matter”
在高等生物中,基因序列只占了基因组DNA的很小一部分。基因之间的区域,大部分是重复序列,还有一些是功能未知的基因间区。这些区域的功能并缺乏了解,我们也常常喜欢用dark matter来描述这些区域的DNA序列。此外,基因组的大量重复序列长期被认为不是生物必需的,是junk DNA(垃圾DNA)。越来越多的研究表明,基因组上“junk DNA”或“dark matter”中的一些组分是有重要功能的。比如,Alu元件能调控附件基因的表达。