blast的功能和分类

1、引言

BLAST 是一种基于序列相似性进行比对的常用算法。通过在数据库中搜索相似序列,BLAST 能够快速识别和注释序列的功能、结构及进化信息。

2、基本原理

BLAST 的核心原理包括种子匹配扩展

1)种子匹配:

在初步比对中,BLAST 通过识别查询序列和数据库序列间高度相似的短片段(种子)来加速比对。BLAST 使用固定长度的子序列(称为 K-mer,其中𝑘是用户定义的整数)作为种子。它滑动窗口扫描查询序列,寻找与数据库序列中 K-mer 相似的片段。

2)扩展:

种子匹配后,BLAST 会扩展这些片段,生成更长的比对结果。扩展采用局部比对策略,以快速识别查询序列和数据库序列间显著的比对区域,而非进行全局比对。这种方式提高了效率,特别适用于大规模序列分析。

3、几个常用的BLAST的种类

1)BLASTN

用于核酸序列比对,能在核酸数据库中查找相似的同源序列,分析序列间的匹配与差异。常用于基因序列或全基因组序列比对。

2)BLASTP

用于蛋白质序列比对,搜索蛋白质数据库中相似的同源序列,定位保守区域与变异区域。适用于蛋白质家族和结构域研究。

3)BLASTX

用于核苷酸序列与蛋白质序列的比对。它将查询核酸序列翻译为六种可能的蛋白质序列,然后与蛋白质数据库比对,识别未知核酸序列中可能编码的蛋白质。

4、BLAST在生物信息中的应用

BLAST 在生物信息学和基因组学研究中有广泛应用,包括:

1)同源序列比对

通过比对同源序列,揭示它们之间的相似性和差异性,帮助研究物种进化关系并预测新的基因家族。

2)基因注释

比对未知基因序列与已知数据库,预测基因的功能、结构和进化信息,为基因注释提供支持。

5、总结

BLAST 是一种功能强大、应用广泛的序列比对工具,利用种子匹配和扩展算法高效识别序列间的相似性。其多种工具(如 BLASTN、BLASTP 和 BLASTX)可满足不同的比对需求,在同源序列比对、基因注释及进化研究中发挥重要作用,为深入解析序列功能提供了有力工具。


参考文献:

Zhang Z, Schwartz S, Wagner L, et al. A greedy algorithm for aligning DNA sequences[J]. Journal of Computational biology, 2000, 7(1-2): 203-214.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容