1、引言
BLAST 是一种基于序列相似性进行比对的常用算法。通过在数据库中搜索相似序列,BLAST 能够快速识别和注释序列的功能、结构及进化信息。
2、基本原理
BLAST 的核心原理包括种子匹配和扩展:
1)种子匹配:
在初步比对中,BLAST 通过识别查询序列和数据库序列间高度相似的短片段(种子)来加速比对。BLAST 使用固定长度的子序列(称为 K-mer,其中𝑘是用户定义的整数)作为种子。它滑动窗口扫描查询序列,寻找与数据库序列中 K-mer 相似的片段。
2)扩展:
种子匹配后,BLAST 会扩展这些片段,生成更长的比对结果。扩展采用局部比对策略,以快速识别查询序列和数据库序列间显著的比对区域,而非进行全局比对。这种方式提高了效率,特别适用于大规模序列分析。
3、几个常用的BLAST的种类
1)BLASTN
用于核酸序列比对,能在核酸数据库中查找相似的同源序列,分析序列间的匹配与差异。常用于基因序列或全基因组序列比对。
2)BLASTP
用于蛋白质序列比对,搜索蛋白质数据库中相似的同源序列,定位保守区域与变异区域。适用于蛋白质家族和结构域研究。
3)BLASTX
用于核苷酸序列与蛋白质序列的比对。它将查询核酸序列翻译为六种可能的蛋白质序列,然后与蛋白质数据库比对,识别未知核酸序列中可能编码的蛋白质。
4、BLAST在生物信息中的应用
BLAST 在生物信息学和基因组学研究中有广泛应用,包括:
1)同源序列比对
通过比对同源序列,揭示它们之间的相似性和差异性,帮助研究物种进化关系并预测新的基因家族。
2)基因注释
比对未知基因序列与已知数据库,预测基因的功能、结构和进化信息,为基因注释提供支持。
5、总结
BLAST 是一种功能强大、应用广泛的序列比对工具,利用种子匹配和扩展算法高效识别序列间的相似性。其多种工具(如 BLASTN、BLASTP 和 BLASTX)可满足不同的比对需求,在同源序列比对、基因注释及进化研究中发挥重要作用,为深入解析序列功能提供了有力工具。
参考文献:
Zhang Z, Schwartz S, Wagner L, et al. A greedy algorithm for aligning DNA sequences[J]. Journal of Computational biology, 2000, 7(1-2): 203-214.