IGV 软件有 自带的基因组文件和注释文件 ,使用自带的还是方便一些。但是,其使用的注释文件和基因组文件可能与我们数据分析时的不一致,这时候我们可视化 bigwig 文件或者 bam 文件时可能就有问题了。其次, 基因组更新是比较慢 的,但是 注释文件更新的很快 ,越来越多的新基因被鉴定出来,添加到注释文件里,注释文件就会有越来越多的新版本。推荐使用对应基因组版本的最新注释文件,这样得到的信息会更全一些。
IGV 导入本地基因组及注释文件 (qq.com):微信公众号:老俊俊的生信笔记
IGV进阶笔记 (qq.com):微信公众号:生信小知识
联川生物:论文缺一张IGV峰型图?就这样画!
转录组入门4-参考基因组、注释文件下载及IGV - 知乎 (zhihu.com)
有时候用自己下载的 GTF 文件去定量后,在 IGV 里却找不到这个基因,这就是注释文件差异的问题。IGV 使用的注释文件好像时 UCSC 数据库的,所以载入自己的 GTF 文件才会准确一点。
一:下载基因组和注释文件
注释文件gtf/gff都可以
下载之后解压
二:导入到igv
(1)igv里面直接对参考基因组进行构建索引
IGV 工具栏,tools-Run igvtools;选择index
(2)igv里面给注释文件排序,构建索引
也可以不自己排序构建,即省略这一步(此步错误,一定要排序)
IGV 工具栏,tools-Run igvtools;选择sort;输入注释文件;生成sort;
接着,IGV 工具栏,tools-Run igvtools;选择index;输入刚刚的sort文件;生成index;
三:导入文件
IGV 里导入基因组文件和排序好的 GTF 文件 (也可以是下载好的原始注释文件,igv会自己构建索引),一定要先导入基因组文件! !!
(1)参考基因组
IGV 工具栏,Genomes → load genome from
或者Genomes → Create genome File :
(2)gff/gtf注释文件
File → Load from File→找到注释文件即可(该步错误)
或者刚刚建立好索引的sort文件(不知道是不是gff的原因,导入该文件后显示如下图1,所以我直接输入了未经排序构建索引的注释文件,如图2)
这样做的好处是:
我们可以准确的查看比对后的结果文件,以及比对后转换的各种其他格式文件
这样做的不足是:
没有办法直接根据基因名进行搜索,没有直接用IGV自带的基因组文件方便
四:导出基因名和位置信息
如果我们使用 IGV 自带的注释文件,我们是可以根据基因名进行搜索的,但是加载自己的注释文件则不可以,只能根据位置进行查找,所以做一个含有基因名和位置信息的文件方便我们查找:
查看有多少个基因:
$ less -S Mus_musculus.GRCm39.104.sorted.gtf | grep -w "gene" |wc -l55416
查看有多少个基因:
$ less -S Mus_musculus.GRCm39.104.sorted.gtf \ | grep -w "gene" \ |awk '{print "chr"$1"\t"$4"\t"$5"\t"$14}' \ |sed 's/["|;]//g' \ > gene.info.xls
结果:
我们直接在 excel 里搜到感兴趣基因,然后复制前 3 列到 IGV 里直接查找回车就行了:
另一种办法:其实不同数据库的基因组版本基本是一样的,我们关注的主要是注释文件的差异,所以我们 默认使用 IGV 软件自带的基因组和注释文件 ,然后导入自己的 GTF 注释文件就行了:
先加载igv自带,然后File → Load from File→sort文件