SnpEff 软件需要使用Java运行,常用的两个命令build和eff, build 用于构建数据库,eff用于对SNP/Indel 进行注释。
注:因为是基于JAVA平台,所以当一个数据大于2.1G 的时候就会报错java.lang.OutOfMemoryError。需要拆分进行操作。
软件可以用conda安装,下载快些,使用的时候需要找到安装位置的snpEff.config 文件。
下载软件安装
$ conda install snpeff
或者自己下载安装
$ wget https://nchc.dl.sourceforge.net/project/snpeff/snpEff_latest_core.zip
$ unzip snpEff_latest_core.zip -d /opt/biosoft/
-d 指定解压后文件存放目录
使用大蒜基因组进行indel 注释实践
准备好三个文件:GFF3或GTF格式的注释文件,基因文件,indel文件
在软件存放目录/opt/biosoft/snpEff/data/新建一个文件夹
$ mkdir garlic_genome
$ cd garlic_genome
将基因组文件 sequences.fa 注释文件 genes.gff3 Indel 文件 garlic_indel.vcf 放入这个文件夹
接着修改程序配置文件 /opt/biosoft/snpEff/snpEff.config
在最后一行加上:garlic_genome.genome : garlic genome
最后,构建数据库及注释
java -jar /opt/biosoft/snpEff/snpEff.jar build -c /opt/biosoft/snpEff/snpEff.config -gff3 -v garlic_genome
java -Xmx2G -jar /opt/biosoft/snpEff/snpEff.jar eff -csvStats variants.SnpEff.csv -s variants.SnpEff.html -c /opt/biosoft/snpEff/snpEff.config -v -ud 500 garlic_genome garlic_indel.vcf > garlic.SnpEff.vcf