2021-10-02 数据库总结

一、核苷酸序列相关数据库

1.综合性数据库
目前国际上有3个主要的核苷酸序列公共数据库:ENA,Genbank,DDBJ。
ENA(European Nucleotide Archive,ENA)是由位于英国剑桥的欧洲分子生物学实验室(EMBL)维护的欧洲核苷酸档案库。
Genbank是由位于美国国家卫生研究院(NIH)的美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)维护的。
DDBJ(DNA Databank of Japan,DDBJ)是日本维护的核酸数据库。
上述3个数据库形成了合作联盟,所以3个数据库所拥有的序列信息是完全一样的。
今年来由中国科学院北京基因组研究所/国家生物信息中心(China National Center for Bioinformation,CNCB)维护的核苷酸序列数据库GSA(Genome Sequence Archive)日渐称为国际上第四个核酸序列公共数据库。

由于目前测序数据增长的速度过快,为了能够更加方便对数据进行管理,ENA在release135时已经放弃一般的测序数据,转而储存组装和注释过的数据。并且以物种情况和数据种类作为分类。

2.基因组数据库
除了上面的核酸数据库外,还有一些模式生物基因组的数据库值得关注。例如Ensembl Genomics,NCBI Genome,Phytozome(植物基因组数据库)和TAIR(拟南芥基因组资源数据库)。

3.核苷酸二级数据库
核苷酸的二级数据库很多,包括非编码RNA数据库和NCBI的RedSeq,Gene等数据库。
(1)非编码RNA数据库
非编码RNA(noncoding RNA)包括了rRNA,tRNA,snRNA,snoRNA和microRNA,它们都能转录但是不能翻译形成蛋白质。snRNA(small nuclear RNA),也称为小核RNA,与蛋白质形成小核核糖核蛋白,发作RNA剪切体的左右。snoRNA最初在核仁被发现,用于修饰rRNA,比如对其碱基进行甲基化或者甲尿嘧啶化修饰。microRNA 是一类21-23 nt 的小RNA,主要起到和mRNA互补,诱导RNA沉默或者降解。另外最近也发现了一些环状的RNA(circularRNA),大多起到基因调节的作用,但是有些也被发现能够编码蛋白。
ncRNA在长度上可以分为两类,非编码小RNA(small noncoding RNA,sncRNA,<200nt)和长链非编码RNA(long noncoding RNA,>200nt)。目前比较综合的ncRNA的数据库是欧洲EBI维护的RNAcentral,整合了多种其他数据库的数据。


二、蛋白质相关数据库

1.蛋白质序列数据库
国际上两个主要的蛋白质序列数据库是Swiss-Prot,PIR。
Swiss-Prot是从EMBI翻译而来的蛋白质序列,都是经过人工检验和注释的。TrEMBL包括了EMBL中所有的蛋白质序列,这势必导致注释质量的下降。Swiss-Prot和TrEMBL合并为UniprotKB(Universal Protein Knowledgebase)数据库。
PIR数据库是由美国的NBRF最早成立的,现已建立了iProClass综合的蛋白质数据库,几乎整合了所有类型的数据信息。

2.蛋白质结构数据库
(1)蛋白质结构分类可以根据不同的结构层次:折叠类型,拓扑结构,家族,结构域等等。最主要的是两大数据库是SCOP和CATH。
SCOP主要依赖人工注释,将蛋白质结构分成4个层次:结构类型class,折叠模式fold,超家族superfamily,家族family。结构类型可以分为6种,全α蛋白;全β蛋白;α/β蛋白;α+β蛋白;多结构域蛋白;其他。
CATH主要是根据程序自动化计算得到的。也分为4各层次:类型class,构架architecture,拓扑结构topology,同源性homology。CATH也来源于上述四个单词的首字母。类型class主要包括了α主类;β主类;α-β类和低二级结构类。构架主要是按照超二级结构来划分。
(2)蛋白质的实验测定结构数据库主要是PDB,最早由美国的国家实验室建立,后于PDBe(Europe)和PDBj(Japan)实现数据共享。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 分子序列数据库主要分为初级数据库和二级数据库。初级数据库包括了核苷酸序列,蛋白质序列和蛋白质结构数据库,二级数据库...
    MaggieXie阅读 2,510评论 0 0
  • 1. Introduction GDC(Genomic Data Commons, 基因组数据共享中心)接收、处理...
    东方不赞阅读 8,368评论 0 2
  • 今天早上难得清闲,学习了NCBI中一些数据库的知识,主要如下: ①refseq数据库,其中所有的数据都是一个非冗余...
    陈洪瑜阅读 1,684评论 4 7
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,607评论 28 53
  • 首先介绍下自己的背景: 我11年左右入市到现在,也差不多有4年时间,看过一些关于股票投资的书籍,对于巴菲特等股神的...
    瞎投资阅读 5,791评论 3 8