简介
MUSCLE(Multiple Protein Sequence Alignment)是 Edgar, Robert C.在2004年公布的一款蛋白质水平多序列比对的开源软件,在速度和精度上都优于 ClustalW。在普通配置的机器上,5000 条平均 350 长度的序列可以在 7 分钟完成。因此在进行多序列比对的时候,大多数情况下可以优先使用MUSCLE。
算法
MUSCLE 先使用渐进式比对(progressive alignment)获得初始的多序列比对,再使用横向精炼(horizontal refinement)迭代提高多序列比对结果
1)使用数串(k-mer counting)方法构造序列间的全局比对和局部相似度
2)填充序列间距离的三角矩阵
3)使用UPGMA或NJ法构建序列发生树,在确定无根树的根
4)从叶节点开始向上推测父节点的渐进式比对,最后产生根节点的多序列比对
5)根据得到的多序列比对,计算任两序列间的相似度
6)计算 Kimura 距离矩阵,构建发生树
7)比较新生成的树和原来树的差异,如果有节点的重排,跳转到步骤 4
8)从树上砍断一个枝,产生两个子树,每次砍断的位置是按和根的距离降序排列的
9)分别计算两个子树的多序列比对,并对两个结果比对得到新的多序列比对
10)如果新的比对结果的 SP 分数(sum of pairs)降低,保留这个新的比对结果,反之丢弃。反复迭代 8->9->10,直到分值不再降低或达到最大迭代次数
安装
下载地址:http://www.drive5.com/muscle/downloads.htm,在下载页可以找到linux,windows,Mac的安装程序,其他系统可以下载源码,编译安装。
使用
MUSCLE 使用起来十分方便,大多数情况下用户只需要指定输入输出文件即可
muscle -in <input_file(fasta)> -out <output_file(default fasta)>
输入文件为标准的 fasta 格式, 默认的输出文件也是 fasta 格式
参数
-in 输入文件,fasta 格式的序列文件
-out 输出文件,默认输出 fasta 格式比对后的结果序列,其他格式参考-clw
-maxiters 最大迭代次数,默认为 16
-maxhours 最长迭代时间,默认无限制
-clw 输出 CLUSTALW 格式的结果
-clwstrict 同-clw,输出文件的头部包含 “CLUSTAL W (1.81)” 字样
-html 输出 HTML 格式结果
-msf 输出 msf 格式结果
-log[a] 日志文件,-loga 表示添加,-log 则直接覆盖已有日志文件
-quiet 不要向标准错误流打印进度信息
-stable 按着输入文件中的序列顺序输出序列结果
-group 按着序列的相似度输出序列结果,默认选项
-version 版本信息
网络资源
在线的WEB服务: http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py。将要分析的序列粘贴到输入框中或点击 Browse(浏览上传本地文件,然后点击 Submit 即可运行。结果将以网页形式展现。