1. 目标物种pep数据库下载:(ensemble数据库中下载http://ftp.ensembl.org/pub/)
出现如下界面,点击最新版本的release-104
点击fasta,进入界面选择目标物种。ensemble数据库里面记载了许多常见物种。
下载pep数据库的时候,由于文件很大,下载速度很慢,所以可以用迅雷进行下载
2.数据库格式化:在pep数据库所在的文件夹下,不点击任何文件的情况下,空白位置点击shift加右键,进入PowerShell窗口,运行以下命令:makeblastdb.exe -in目标物种.pep.all.fa -parse_seqids -hash_index -dbtype prot
目标物种.pep.all.fa是我们设置的目标物种的pep蛋白文件名称。除此之外其他都按照上述命令复制即可。
dbtype后的prot表示数据库的类型,prot表示氨基酸序列的数据库,如果是核苷酸序列则用nucl
3. 建立查询序列文件。查询序列文件名称设置为:target.seq.txt,将序列ID和序列放入文件夹。
4. 本地blast:blastp.exe -task blastp -query target.txt -db 物种pep.fas -out out.txt -evalue 1e-10 -outfmt 6 -num_threads 2
物种pep.fas即为我们设置的物种蛋白文件的名称。
A:Query_id 引物序列ID
B:Subject_id 目标物种序列ID
C:Identity 一致性
D:Align_length 比对长度
E:Miss_match
F:Gap
G:Query_start
H:Query_end
I:Subject_start
J:Subject_end
K:E_value
L:Score