关于Hisat2的参考基因组和注释文件

已知Gencode的注释文件（gtf和gff3）都是带“chr”’的，UCSC带“chr”，ENSEMBL不带“chr”，NCBI最新的甚至不带染色体号（建议摒弃NCBI的，gtf注释率为0，垃圾玩意）

***NCBI***

而关于人类和小鼠，Hisat2的参考基因组都有两种：
一种是GRC开头的，比对完之后没有“chr”
一种是UCSC开头的，比对完是有“chr”
关于大鼠，只有一种UCSC比对完是有“chr”
为了统一，建议使用UCSC开头的

接下来的比对，建议使用featurecount，不仅速度快，还可以忽略hisat2 index染色体号和gtf染色体号不统一的问题
例如：比对完bam文件带chr，而gtf注释文件不带chr，featurecount完美解决该问题
注：以前（2020.3）的htseq是不可以的，现在（2021.1）未测试

转换方法：
如果不慎采用了第一种GRC的参考基因组，可以使用sed命令为注释文件的每一行开头去掉“chr”，即：
sed -i 's/chr//' xxx.sorted.gtf
如果要恢复原来的注释文件，同样可使用下列语句为每一行开头加上“chr”：
awk '{print "chr"$0}' xxx.sorted.gtf > xxx.sorted.gtf
仅以自省！

最后编辑于：2022.04.15 22:22:15

关于Hisat2的参考基因组和注释文件

推荐阅读更多精彩内容