一、软件说明
引用此软件:Na, S. I., Kim, Y. O., Yoon, S. H., Ha, S. M., Baek, I. & Chun, J. (2018). UBCG: Up-to-date bacterial core gene set and pipeline for phylogenomic tree reconstruction. J Microbiol 56. DOI: <10.1007/s12275-018-8014-6
UBCG:最新细菌核心基因集和用于系统树重建的管道
简单来说就是从细菌基因组里提取到92个核心基因经多重比对后串联构建系统发育树。
UBCG管道和文件查看器分别在https://www.ezbiocloud.net/tools/ubcg和https://www.ezbiocloud.net/tools/ubcg_viewer上提供。
二、软件使用
软件要求
- Java Runtime Environment Version 8
- Prodigal 2.6.3
- Hmmsearch 3.1b2
- Mafft 7.310 64bit
- Fasttree v.2.1.10
java8及UBCG安装包(jre-8u251-linux-x64.tar.gz和UBCG_v3.zip)
链接:https://pan.baidu.com/s/1V9woLFRnS9ebb40OqAvxNw
提取码:pmtf
安装java8参考ubuntu配置jre8
# 解压安装包:
$ tar xvf jre-8u251-linux-x64.tar.gz
# 移动解压包到/usr/lib/java:
# 注意:执行前确认该目录下有java文件夹,如果没有请先创建
$ sudo mkdir /usr/lib/java
$ sudo mv -f jre1.8.0_251/ /usr/lib/java
#配置环境变量:
$ sudo vi /etc/environment
在环境变量中添加:
/usr/lib/java/jre1.8.0_251/
保存命令
按ESC键 跳到命令模式,然后输入:wq!
强制保存文件,并退出vi
# 安装jre8
$ sudo update-alternatives --install /usr/bin/java java /usr/lib/java/jre1.8.0_251/bin/java 300
# 设置默认的java:
$ sudo update-alternatives --config java
# 测试是否安装成功:
$ java -version
执行结果:
# 其他软件用conda进行安装。
$ conda create -n UBCG python=3
$ conda activate UBCG
$ conda install -c bioconda prodigal hmmer mafft fasttree
# 解压UBCG_v3.zip
$ unzip UBCG_v3.zip
$ cd UBCG
找到相应软件工具位置信息添加到programPath文件中
prodigal=/home/ykd/miniconda3/envs/UBCG/bin/prodigal
hmmsearch=/home/ykd/miniconda3/envs/UBCG/bin/hmmsearch
mafft=/home/ykd/miniconda3/envs/UBCG/bin/mafft
fasttree=/home/ykd/miniconda3/envs/UBCG/bin/FastTree
raxml=/home/ykd/miniconda3/envs/UBCG/bin/raxmlHPC-PTHREADS
至此软件安装成功!
软件使用参考[UBCG] User’s Manual
运行 UBCG 管道
步骤 1:将基因组组装或重叠群 (fasta) 转换为 bcg 文件
# java -jar UBCG.jar extract 此命令使用 prodigal 和 hmmsearch 工具将 fasta 文件转换为 bcg 文件。 java -jar UBCG.jar extract 此命令使用 prodigal 和 hmmsearch 工具将 fasta 文件转换为 bcg 文件。
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/CP012646_s_GCA_001281025.1_KCOM_1350.fasta -label "CP012646_s KCOM 1350" -acc "GCA_001281025.1" -taxon "CP012646_s" -strain "KCOM 1350"
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_constellatus_subsp._constellatus_GCA_000474075.1_SK53_TYPE.fasta -label "Streptococcus constellatus subsp. constellatus SK53(T)" -acc "GCA_000474075.1" -taxon "Streptococcus constellatus subsp. constellatus" -strain "SK53" -type
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_constellatus_subsp._pharyngis_GCA_000223295.2_SK1060_TYPE.fasta -label "Streptococcus constellatus subsp. pharyngis SK1060(T)" -acc "GCA_000223295.2" -taxon "Streptococcus constellatus subsp. pharyngis" -strain "SK1060" -type
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/CP014326_s_GCA_001560895.1_SVGS_061.fasta -label "CP014326_s SVGS_061" -acc "GCA_001560895.1" -taxon "CP014326_s" -strain "SVGS_061"
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_mitis_GCA_002014755.1_CCUG_31611_TYPE.fasta -label "Streptococcus mitis CCUG 31611(T)" -acc "GCA_002014755.1" -taxon "Streptococcus mitis" -strain "CCUG 31611" -type
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_pneumoniae_GCA_001457635.1_NCTC_7465_TYPE.fasta -label "Streptococcus pneumoniae NCTC 7465(T)" -acc "GCA_001457635.1" -taxon "Streptococcus pneumoniae" -strain "NCTC 7465" -type
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_pseudopneumoniae_GCA_002087075.1_CCUG_49455_TYPE.fasta -label "Streptococcus pseudopneumoniae CCUG 49455(T)" -acc "GCA_002087075.1" -taxon "Streptococcus pseudopneumoniae" -strain "CCUG 49455" -type
$ java -jar UBCG.jar extract -bcg_dir bcg -i fasta/Streptococcus_pneumoniae_GCA_000006885.1_TIGR4.fasta -label "Streptococcus pneumoniae TIGR4" -acc "GCA_000006885.1" -taxon "Streptococcus pneumoniae" -strain "TIGR4"
步骤 2:从bcg文件生成多个比对,创建UBCG树
# java -jar UBCG.jar align
$ java -jar UBCG.jar align -bcg_dir bcg -prefix my_example
步骤一必须需要指定以下参数:
-i :包含基因组组装的输入 FASTA 文件的路径。
-bcg_dir : 所有 bcg 文件的目录。bcg文件的名称将与fasta文件相同。如 -bcg_dir bcg
-label :菌株/基因组的完整标签。应该用引号包围,如 -label “Escherichia coli O157 876”。 最后进化树上显示的结果
以下是可选参数
-taxon:物种名,如 -taxon “Escherichia coli”
-strain : 菌株名称,如 -strain “O157 876”
-type :如果菌株是物种或亚种的模式菌株则添加此项
-acc : 基因组序列登录号。
第 2 步必须指定参数:
-bcg_dir 目录,用于要包含在对齐中的 bcg 文件。
可选参数:
-out_dir 所有输出文件所在的目录
-a :比对方法(默认:codon)。
nt : 核苷酸序列比对
aa : 氨基酸序列比对
codon:基于密码子的比对(输出是核苷酸序列,但比对是使用氨基酸序列进行的)。
codon12 :与“codon”选项相同,但仅选择密码子的第 1 个和第 2 个核苷酸。第 3 位通常具有高度可变性。
-t <整数> :要使用的线程数(默认值:1)
-f <整数> :为包含间隙的位置设置过滤截止值(默认值:50),输入 0~100
0 选择所有对齐位置
100 选择存在于所有基因组中的位置
50 选择存在于一半基因组中的位置
-gsi_threshold:基因支持指数 (GSI) 的阈值。95 表示 95%。(默认值 = 95)
-raxml :使用 RAxML 进行系统发育重建(默认值:FastTree)。RAxML 比 FastTree 慢得多。
-zZ :制作 zZ 格式的文件。这还为每个基因组的名称创建了具有 zZ+uid+zZ 格式的 fasta/nwk 文件
典型运行示例
$ java -jar UBCG.jar align -bcg_dir bcg -prefix mytest1
使用“bcg”目录中的bcg文件对齐并绘制树,并将所有结果保存在“output/mytest1”目录中。
- mytest1.UBCG_gsi(92).codon.50.label.nwk= A newick file based on UBCG + Gene Support Index (GGI) values with full label
可以用MEGA或其他进化树树查看程序打开。
UBCG 树显示:
1)92个UBCG都支持两个Streptococcus constellatus亚种间亲缘关系密切。
肺炎链球菌TIGR4与肺炎链球菌;
2)UBCG中有72个基因支持Streptococcus pneumoniae TIGR4与Streptococcus pneumoniae 的模式菌株NCTC 7465密切相关;
3)两个暂定的新种CP012646_s和CP014326_s与S. pneumoniae,Streptococcus pseudopneumoniae和Streptococcus mitis形成了一个单系分枝。