使用blast在鱼的基因组上识别C-lectin基因
1. 下载基因组
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/002/994/505/GCA_002994505.1_ASM299450
v1/GCA_002994505.1_ASM299450v1_genomic.fna.gz -O Seriola_quinqueradiata.fa.gz
gunzip Seriola_quinqueradiata.fa.gz
2. 获得C-lectin基因序列
cat > C_lectin.fa
>C-LECTIN
MKTLLILSVVLCAALSVRAAAVVPAEAATAQLGDKAAPEPEAVKDTAVEDTAVEETAVEDTAVEETAVEDTAVEETAVED
TAVEETAVEDTAVEDTAVEDTAVEDTAVEDTAVEETAVEDTAVEDTAVEDTAVAAGRPAGLRQTRLSFCLDGWQSFSGKC
YFLANHPDSWANAERFCASYEGSLASVGSIWEYNFLQRMVKTGGHAFAWIGGYYFQGEWRWEDGSRFDY
SNWDTPRSTAYYQCLLLNSQVSMGWSNNGCNMNFPFVCQVRQLNC
3. 构建基因组数据库
makeblastdb -in Seriola_quinqueradiata.fa -dbtype nucl -input_type fasta -out SerRivdb
-in 输入的建库序列文件
-dbtype 数据库的类型(核酸或蛋白质)
-input_type 输入的文件格式
-out 产生数据库的文件前缀
4. blast gene to genome
tblastn -db SerRivdb -query C_lectin.fa -out blastout.txt
获得更精确易读的结果
tblastn -db SerRivdb -query C_lectin.fa -outfmt '6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs salltitles' -num_threads 16 -out blastout2 .txt
挑选结果
more blastout2.txt | awk '$3>50'
确认结果,将比对筛选得到的序列再回比到NR数据库,确认比对的正确性。