1. 背景
该软件使用HMMSearch和BLASTP的经典注释流程,为了确保提供注释参数的准确性,使用11种双子叶植物、7种单子叶植物和2种基部被子植物基因组构建了三个数据集:种子数据集,测试数据集和验证数据集。研究者首先使用已有试验验证的蛋白序列构建种子数据集,利用测试数据集依据输入序列的保守结构域覆盖度(h_cov)、与种子序列的整体相似性(q_iden)、输入序列的整体完整性(t_cov和q_cov),结合目标基因的系统发育关系来进行参数调优。GFanno提供的参数能有效地排除各种结构不完整和异常的蛋白序列,并且能正确区分出细胞色素P450 (CYP450)中类黄酮3′5’-羟化酶(F3′5′H)和类黄酮3′-羟化酶(F3′H)等基因家族中序列高度相似的基因[1]。
2.安装与使用
2.1 依赖软件安装
该软件需要依赖另外两款软件:blast+、HMMER,同时需要python环境高于3.5。这两款软件都可以通过conda安装。
python --version
#查看python版本
conda install blast+ hmmer
#安装blast+和hmmer
2.2 gfanno安装
最简单的安装方法是直接使用pip安装
pip install gfanno
此外还可以使用git仓库安装
git clone https://github.com/qunjie-zhang/gfanno.git
cd gfanno
python setup.py install
2.3 gfanno的使用
gfanno -g
#生成基础配置文件gfanno_config.ini
gfanno --data
#生成样本数据,包括HMM模型和种子文件
gfanno -f /path/to/your/protein.pep
#指定输入文件,输入文件需要是蛋白序列
其他参数
-o/--output:输出文件的目录,如果目录不存在则会自动生成(output/)
-c/--config:指定配置文件gfanno_config.ini,如果不使用-g命令生成gfanno_config.ini则需要指定已存在的配置文件路径
完整命令
gfanno -g --data -f /path/to/your/protein.pep