最近需要做S.celevisiae数据集的相关操作,需要根据VEuPathDB数据库中酵母菌蛋白质的ID,获得其序列以及3D结构。
这里采用从UniProt数据库中获得其序列以及3D结构,因此,需要如下步骤:
将VEuPathDB中的id映射为UniProt中的ID
下载3D文件
1、ID映射
首先,进入UniProt官网,进入ID mapping
功能界面
进入界面后,在From database
下拉栏中选择VEuPathDB数据库,To database
下拉栏中选择UniProtKB。
然后将需要转换的VEuPathDB数据库中的ID写到框中,点击MAP IDs
,开始进行转换。
查询完成后,会显示结果completed
点击Completed
,会进入到详情页面
- 如果要研究特定物种/器官中的蛋白质,需要选择
Popular organisms
,我理解的是由于同一个蛋白质可能会出现在不同的物种/器官中,所以需要选择到特定场景中,以筛选蛋白质 - 如果只是查询,可以点击
Customize columns
,选择需要在页面的详情表格中出现的数据 - 如果需要将数据下载下来,做进一步的分析,点击
Download
ID mapping
点击之后,会出现下载页面,可以调整Format
,以此来选择下载文件的格式
- 默认是FASTA格式
-
但是如果需要额外的详细信息,比如序列,AlphaFold数据库中的3D结构名称,就需要选择Excel等格式
Download
在详情选择界面,如果点对号,相应的信息就会出现在下载的Excel文件中,比如我额外选择了Sequences -> Sequence
以及External Resources -> 3D structure -> AlphaFoldDB
。
选择完成后,点击下载,就可以下载映射完成后的文件。
可以看到,下载好的Excel文件中,就会出现我们感兴趣的内容
2、AlphaFold 3D结构下载
进入AlphaFold官网,在搜索栏输入上面下载的Excel文件中对应蛋白质的AlphaFoldDB中的ID(也就是Entry,UniProt数据库中的ID),这里以第一个P32367
为例。
搜索完成后,在Download
中选择想要下载的文件格式,我选择的是PDB file
下载完成后,就可以得到P32367
蛋白质的3D结构数据
另外,AlphaFold也提供了下载整个物种/器官中所有蛋白质3D结构的地方,点击download
在页面中选择需要下载的物种/器官数据集
比如我们所感兴趣的酵母菌蛋白质数据集就出现在这里