CheckM 提供了一套用于评估从分离株、单细胞或宏基因组中获得的基因组质量的工具。它通过使用在系统发育谱系中普遍存在且单拷贝的基因组来提供对基因组完整性和污染的可靠估计。还可以使用描绘关键基因组特征(例如,GC、编码密度)的图来检查基因组质量的评估,这些特征突出显示典型基因组预期分布之外的序列。 CheckM 还提供了用于根据标记集兼容性、基因组特征的相似性以及参考基因组树内的接近度来识别可能作为合并候选者的基因组箱的工具。
安装命令:
conda install -c bioconda checkm-genome
准备好要分析的fasta文件至一个文件夹中,如fasta,并建立用于存放输出文件的文件夹,如checkmout,运行:
checkm lineage_wf fasta/ checkmout/ -t 48 --pplacer_threads 8 --tab_table -f test1.tab
输出文件test1.tab导入excel即可查看结果:
checkm输出结果
checkm lineage_wf命令的参数解释如下:
位置参数:
bin_dir 包含 bin 的目录(fasta 格式)
output_dir 目录写入输出文件
可选参数:
-h, --help 显示此帮助信息并退出
-r, --reduced_tree 使用缩减树(需要 <16GB 内存)来确定每个 bin 的沿袭
--ali 为每个 bin 生成 HMMER 对齐文件
--nt 为每个 bin 生成核苷酸基因序列
-g, --genes bins 包含作为氨基酸而不是核苷酸重叠群的基因
-u, --unique UNIQUE 使用谱系特定标记集所需的唯一系统发育标记的最小数量(默认值:10)
-m, --multi MULTI 在默认为域级标记集之前的最大多拷贝系统发育标记数(默认值:10)
--force_domain 对所有 bin 使用域级别集
--no_refinement 不执行特定于谱系的标记集细化
--individual_markers 将标记视为独立的(即,忽略同位集合结构)
--skip_adj_correction 估计污染时不要排除相邻的标记基因
--skip_pseudogene_correction 跳过假基因的识别和过滤
--aai_strain 用于识别应变异质性的 AAI 阈值(默认值:0.9)
-a, --alignment_file 生成显示多拷贝基因比对及其 AAI 身份的文件
--ignore_thresholds 忽略模型特定的分数阈值
-e, --e_value e值截止(默认值:1e-10)
-l, --length 目标和查询之间的重叠百分比(默认值:0.7)
-f, --file 将结果打印到文件(默认值:stdout)
--tab_table 打印制表符分隔值表
-x, --extension bins 的扩展名(目录中的其他文件被忽略)(默认值:fna)
-t, --threads 线程数(默认值:1)
--pplacer_threads pplacer 使用的线程数(内存使用量随着线程的增加线性增加)(默认值:1)
-q, --quiet 抑制控制台输出
--tmpdir TMPDIR 指定临时文件的替代目录
示例:checkm lineage_wf ./bins ./output
参考
checkm地址