blast 基因/蛋白比对
第一步:创建一个操作的文件夹
第二步:将需要比对的序列放进文件夹。
使用:vi query代码创建 标准序列。
使用:cat....>all 代码创建 被比较序列。
第三步:开始构建blast数据库: makeblastdb -dbtype prot -in all.fasta -out all
第四步:进行比对: blastp -query query.fasta -db all -out blast.out -evalue 1e-10 -outfmt 7
第五步:过滤结果(知识点1:剔除含“#”的行 grep -v "#" blast.out | less -S 知识点2:选择特定列,比如要求某列的数值大于50 awk '$3>50 && $11<1e-100' blast.out2 >blast.out3 知识点3 在前期blast.out3的基础上,再选择特定的列 awk '{print $2}' blast.out3>blast.out4 知识点4 对blast.out4排序并删除重复 sort blast.out4 | uniq )将以上步骤合并:grep -v "#" blast.out | awk '$3>50 && $11<1e-100{print $2}' | sort |uniq >protein_ids.txt
第六步:提取序列 seqtk subseq atha.fasta protein_ids.txt
最后可使用MEGA软件画进化树图。