问题描述:
有些物种,基因组拼接的可能不是很好,或者说,在基因注释的时候,没有注释的很清楚,这个时候会怀疑直接从基因组fasta文件和gff3文件中提取的基因是有问题的,那么如果有转录组数据的话,可以辅助矫正看基因的结构,我把转录组的fastq reads map到基因组上,发现有问题的基因确实存在reads 覆盖,接下来具体怎么肉眼人工矫正我就不是很清楚了,到底该怎么看呢?
解决方案:
当然是去问洲更了哈哈
结果:
这是IGV 浏览器的结果(根据gff文件把这个区域找到看)
接下来把左边的gff文件注释的为CDS的放大看:
我们发现左边区域的深度比较低,且缺少起始密码子,更加偏向于是UTR区域
因为正常的比对结果,通常是一个上升,中间平整,后面下降。
这样一看确实IGV还是蛮有用的,不过也正所谓内行看门道,外行看热闹,我看了半天啥也没看出来,还是需要多积累经验才行,这也正是生信研究人员的进阶之路,生信分析并不是只是跑跑软件,还要对问题有自己的理解。
当然最后,可以用AUGUSTUS 对该区域进行重新预测,再和转录组数据map的结果进行比对:
这样获得的结果更加准确