我最近在做比较基因组学分析的过程中遇到了一个问题,就是从数据库中下载到的注释文件,明明是gff3格式,却无法按照常规方法提取最长转录本。注释文件中显示来源于DDBJ数据库。无独有偶,我下载到的所有类似于这种来源于DDBJ数据库的gff3注释文件均提取不出来最长转录本,这也让我苦恼了很长时间,注释文件的格式类似下图:
经过多方面的尝试,包括使用命令行转换格式、gtf转ensembl格式的gtf、gtf转gff等操作,均行不通;后来发现,原来是因为注释文件缺乏mRNA feature导致。存在一些基因结构注释信息文件,缺少了mRNA feature,只有exon和cds,或者只有cds。这类文件不仅无法进行比较基因组学的分析,对于一些转录组分析流程,如STAR align - stringtie这个流程来说,可能也是直接无法使用的。
于是我使用TBtools的GXF Fix进行了注释文件的修复工作,然后就可以提取出来最长转录本了。