关于Hisat2的参考基因组和注释文件

已知Gencode的注释文件(gtf和gff3)都是带“chr”’的,UCSC带“chr”,ENSEMBL不带“chr”,NCBI最新的甚至不带染色体号(建议摒弃NCBI的,gtf注释率为0,垃圾玩意)


***NCBI***

而关于人类和小鼠,Hisat2的参考基因组都有两种:
一种是GRC开头的,比对完之后没有“chr”
一种是UCSC开头的,比对完是有“chr”
关于大鼠,只有一种UCSC比对完是有“chr”
为了统一,建议使用UCSC开头的

接下来的比对,建议使用featurecount,不仅速度快,还可以忽略hisat2 index染色体号和gtf染色体号不统一的问题
例如:比对完bam文件带chr,而gtf注释文件不带chr,featurecount完美解决该问题
注:以前(2020.3)的htseq是不可以的,现在(2021.1)未测试

转换方法:
如果不慎采用了第一种GRC的参考基因组,可以使用sed命令为注释文件的每一行开头去掉“chr”,即:
sed -i 's/chr//' xxx.sorted.gtf
如果要恢复原来的注释文件,同样可使用下列语句为每一行开头加上“chr”:
awk '{print "chr"$0}' xxx.sorted.gtf > xxx.sorted.gtf
仅以自省!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容