已知Gencode的注释文件(gtf和gff3)都是带“chr”’的,UCSC带“chr”,ENSEMBL不带“chr”,NCBI最新的甚至不带染色体号(建议摒弃NCBI的,gtf注释率为0,垃圾玩意)
而关于人类和小鼠,Hisat2的参考基因组都有两种:
一种是GRC开头的,比对完之后没有“chr”
一种是UCSC开头的,比对完是有“chr”
关于大鼠,只有一种UCSC比对完是有“chr”
为了统一,建议使用UCSC开头的
接下来的比对,建议使用featurecount,不仅速度快,还可以忽略hisat2 index染色体号和gtf染色体号不统一的问题
例如:比对完bam文件带chr,而gtf注释文件不带chr,featurecount完美解决该问题
注:以前(2020.3)的htseq是不可以的,现在(2021.1)未测试
转换方法:
如果不慎采用了第一种GRC的参考基因组,可以使用sed命令为注释文件的每一行开头去掉“chr”,即:
sed -i 's/chr//' xxx.sorted.gtf
如果要恢复原来的注释文件,同样可使用下列语句为每一行开头加上“chr”:
awk '{print "chr"$0}' xxx.sorted.gtf > xxx.sorted.gtf
仅以自省!