autoprokka.py这个Python脚本可以方便地批量地使用prokka去进行注释,自动按照输入文件名去命名输出文件,并且每个样本单独一个文件夹存放注释后结果,.gff文件会统一复制一份到输出文件夹里,方便后续分析使用,如roary泛基因组分析。
脚本可以直接到github脚本源下载解压,也可以使用git下载:
git clone https://github.com/stevenjdunn/autoprokka.git
下载完成后进入:
cd autoprokka/
下载完成后,需要根据需要添加prokka的参数,用notepad++打开autoprokka.py,在第82行内加入
原代码:
subprocess.call(['prokka', fastain, '-o', fastaout, '--prefix', pre])
按需要和其格式输入需要的参数,如我自己用的:
subprocess.call(['prokka', fastain, '-o', fastaout, '--prefix', pre, '--addgenes', '--locustag', pre, '--genus', 'Escherichia', '--species', 'coli', '--strain', pre, '--kingdom', 'Bacteria', '--gcode', '11', '--cpus', '72'])
添加完成后,保存文件,即可以使用。
使用方法:
python autoprokka.py -i 输入文件夹/ -o 输出文件夹/
即可,若要提取.gbk文件,则
python autoprokka.py -i 输入文件夹/ -o 输出文件夹/ -gbk
参考
1.autoprokka 源地址:https://github.com/stevenjdunn/autoprokka
2.Seemann T. Prokka: rapid prokaryotic genome annotation
Bioinformatics 2014 Jul 15;30(14):2068-9. PMID:24642063