导读
Metabat是近几年所有分箱工具中最受欢迎的工具(引用达460+)。 2019年发表在PeerJ上的新版Metabat2更是在完成度、效率等多方面均优于Metabat和同类工具[1]。仅在2019年当年Metabat2就已经被Cell、Nature Biotechnology、Genome Biology等多篇高水平期刊引用。下面通过比较来看Metabat2有哪些非常之处。
一、Bin数量和完成度
CONCOCT计算得到的Bin数量最多,其次才是Metabat2,但是Metabat2能获得的>50%完成度,>70%完成度,>90%完成度的Bin数量均>同类软件[1],比较结果如下:
另一个比较分析得到类似的结果: 与同类单算法的分箱工具(DAS_Tool为多算法)相比,Metabat2分析CAMI hign数据集得到的Bin数量在>50%, >70%, 90%三个完成度水平均是最多[2],比较结果如下表:
二、Bin纯度和完成度
Metabat2在分箱纯度和完成度分析中均有较好的表现,如下:
三、精确度和完成度
使用CAMI数据集,比较多个组装算法得到的精确度大于90%或95%的基因组数量。A、B使用的是CAMI高复杂度数据集,C、D使用的是CAMI中复杂度数据集,E、F使用的是CAMI低复杂度数据集。Recall指Completeness(完成度)。比较结果如下图,由图可见Metabat2分析不同的数据集能得到的高精确度的基因组数量均最多。
四、效率
MetaBAT2只用了7秒就完成了CAMI Low数据集,而其他大多数工具需要11分钟或更长时间,这比MetaBAT2慢90倍或更多。
结束语
MetaWRAP、DAS_Tool等集合了多个算法的工具虽然表现突出 宏基因组分箱(Binning)技术,但是时间成本非常的高,在大样本大数据的研究中行不通。所以“在单样本分箱中表现最佳的Metabat2”是很不错的选择 [3]。
参考
[1] MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies. PeerJ. 2019
[2] AMBER: Assessment of Metagenome BinnERs. Gigascience. 2018
[3] Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle. Cell. 2019