首先,下载好基因组的完成图(自己的也行,只要确保测序质量够好),先用prokka注释完获得*.gff文件(批量可以参考我之前的文章用autoprokka执行),将gff文件放到文件夹中,如:gff/.
接着利用roary进行泛基因组分析,-g选项尽量设置大于默认值,以免过小程序报错:
roary -p 线程数 -f 输出文件夹 -e -n -g 100000 gff/*.gff
分析完成后,获得gene_presence_absence.csv文件,打开,根据提供的gff文件数量,等于该数量的基因即为所分析的基因组的核心基因,如图,我总共分析了365个,那么365个样本都有的基因即为核心基因:
到表中随意一个样本的列,复制所有对应的locus-tag名字,打开TBtools:
选择fasta提取(基础版)模块,设置好输入文件(用prokka注释得到的.ffn),输出文件目录及文件名,复制需要提取的locus_tag到下面空白处,注意要和ffn文件里的一致:
点击start,等待提取完成后,即可获得该批基因组文件的所有核心基因:
如果序列名字对后续分析有影响可以自行利用TBtools等进行统一修改。