SnpEff 注释SNP/Indel

SnpEff 软件需要使用Java运行,常用的两个命令build和eff, build 用于构建数据库,eff用于对SNP/Indel 进行注释。
注:因为是基于JAVA平台,所以当一个数据大于2.1G 的时候就会报错java.lang.OutOfMemoryError。需要拆分进行操作。
软件可以用conda安装,下载快些,使用的时候需要找到安装位置的snpEff.config 文件。
下载软件安装

$ conda install snpeff
或者自己下载安装
$ wget https://nchc.dl.sourceforge.net/project/snpeff/snpEff_latest_core.zip
$ unzip snpEff_latest_core.zip -d /opt/biosoft/    
-d 指定解压后文件存放目录

使用大蒜基因组进行indel 注释实践

准备好三个文件:GFF3或GTF格式的注释文件,基因文件,indel文件
在软件存放目录/opt/biosoft/snpEff/data/新建一个文件夹

$ mkdir garlic_genome
$ cd garlic_genome 

将基因组文件 sequences.fa 注释文件 genes.gff3 Indel 文件 garlic_indel.vcf 放入这个文件夹

接着修改程序配置文件 /opt/biosoft/snpEff/snpEff.config
在最后一行加上:garlic_genome.genome : garlic genome
最后,构建数据库及注释

java -jar /opt/biosoft/snpEff/snpEff.jar build -c /opt/biosoft/snpEff/snpEff.config -gff3 -v garlic_genome
java -Xmx2G -jar /opt/biosoft/snpEff/snpEff.jar eff -csvStats variants.SnpEff.csv -s variants.SnpEff.html -c /opt/biosoft/snpEff/snpEff.config -v -ud 500 garlic_genome garlic_indel.vcf > garlic.SnpEff.vcf
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容