写在开头
因为一直在进行call SVs的课题,收集了一些相关软件,今天给各位介绍一款2020年5月份发布的MUMandCo,也可以写作MUM&Co。
文章地址:https://academic.oup.com/bioinformatics/article/36/10/3242/5756209
Github地址:https://github.com/SAMtoBAM/MUMandCo
软件简介
MUMandCo是一款基于MUMmer(3或4都可以)中nucmer算法检测SVs的工具。能够检测到长度>50bp的插入(insertions)、缺失(deletions)、串联重复(tandem duplications,>50bp)、倒位(inversions)以及易位(translocations,>1kb)。在模拟数据集与真实数据集中都有不错的表现。
在软件中应用了g-(global)与m-(many-to-many)两种过滤方法,对nucmer产生结果进行筛选。g-用于检测易位、大的倒位以及可能的插入缺失,ref和qry之间的gaps被认为是插入缺失;m-则被应用于寻找潜在的倒位和重复。
先利用两次g-比对来确认正确的倒位与插入缺失(先筛选潜在位点,第二遍确认),m-比对的结果也与之比较,最终生成tsv文件,包括ref与qry的染色体和位点坐标信息,以及SVs的长度类型等。
在文章中,开发者用MUMandCo与Assemblytics、MUMmer中的show-diff、paftools、SVrefine(SVanalyzer)以及SVMU相比较,用酵母、拟南芥及人类11-20号染色体三组数据集进行测试,结果如下图(SVrefine据说是几乎call不出来就没放结果了hhhh):
可以看得出来其表现还是很不错的,接下来介绍一下这款软件的用法吧。
软件用法
首先,老生常谈从github上把软件下载下来:
git clone https://github.com/SAMtoBAM/MUMandCo.git
软件是用shell语言写的,没有封装也不需要安装,可以直接使用。先用自带的测试数据试试看(在下载的yeast_DEL100_test
目录下):
bash mumandco_v2.4.sh -r ./yeast.tidy.fa -q ./yeast_tidy_DEL100.fa -g 12500000 -o DEL100_test
这里一定要用bash,用sh会出错!(详情参考我的上一篇简书)关于这款软件参数部分的说明,非常简单好用,基因组大小填写ref与qry中较大的一个就可以:
-r or --reference_genome path to reference genome
-q or --query_genome path to query genome
-g or --genome_size size of genome
-o or --output output prefix
结果出来得非常快,我们来看看结果目录,一共分为三个部分:
1. 用于SVs检测的目录,里面主要是中间产生的delta数据;
2. SVs检测的summary文本文件;
3. SVs检测的tsv结果文件。
最后要说明的是,MUMandCo中有一个隐藏功能,即用Blast标记出插入缺失,这项功能需要Blast与Samtools的前置安装,如果开启需要修改脚本中的指令:
"blast_step = no" ---> yes