随着测序技术的普及和组装技术的完善,物种基因组版本更新很快。如果我们手头的数据是使用老版本基因组分析的结果,可以使用现成的工具直接转换(转换会有一些失败和错误的风险)。之前给大家介绍了Remap工具的使用,该工具操作起来比较简单,结果也很直观。最近查看的时候发现改工具要停用了。
该工具在2023年11月停止使用。官网给出了另外一个工具,Comparative Genome Viewer
,可以查看两个基因组之间的相似及重排程度。程序运行时,需要指定两个物种及参考基因组版本。
同一物种不同基因组版本的展示
用来展示同一个物种,不同基因组版本之间的比较。如果两个基因组组装的效果都比较好,两个基因组之间的共线性会很好,比如下面展示的人GRCh38.p14与T2T-CHM13v2.0之间的比较,一致性很高。
上面展示的是全基因组范围内的共线性关系,除此之外还能查看每条染色体或者具体基因的重排信息,示例如下。
除了共线性图,还会提供点阵图可以参考,由于图片太大,就不展示了,有兴趣的可以去官网查看。
不同物种之间的比较
不同物种间基因组的差异较大,不是任意两个物种在数据库中都有共线性的数据,查看时只能从下拉菜单中选择候选的物种及对应的基因组版本。
下图是人和黑猩猩之间的基因组共线性分布图
结果下载
该工具也提供比对结果下载,下载的数据有以下几种格式
所有下载的数据会指定两个基因组版本之间的同源区间以及区间内的错配情况,至于具体错配的位置及碱基变化,只是有简短的说明。以下是大豆不同基因组版本之间比对结果(gff3格式)
##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
NC_007942.1 RefSeq match 1 152218 . + . ID=03316e99-ebc8-47fe-ad66-f1cb7402b954;Target=NC_007942.1 1 152218 +;chloroplast_to_chloroplast=1;chromosome_to_chromosome=1;common_component_align=1;gap_count=0;num_ident=152218;num_mismatch=0;pct_coverage=100;pct_coverage_hiqual=100;pct_ident_quantized=98;pct_identity_gap=100;pct_identity_gapopen_only=100;pct_identity_ungap=100;reciprocity=3;same_unit_reciprocity=3
NC_038253.2 RefSeq match 31015327 31015983 . + . ID=aad30e72-8f2c-4199-b5f6-faa834a0a241;Target=NW_020447123.1 514 1171 +;gap_count=1;genomic_to_genomic=1;num_ident=653;num_mismatch=4;pct_coverage=52.0602;pct_coverage_hiqual=52.0602;pct_ident_quantized=98;pct_identity_gap=99.2401;pct_identity_gapopen_only=99.2401;pct_identity_ungap=99.3912;reciprocity=3;same_unit_reciprocity=3;Gap=M517 I1 M140
上述示例中给了两个区间,第一个区间长152218bp,两个基因组版本间完美匹配,没有错配,没有gap;第二个区间中存在1个gap,位置在517bp位置存在一个插入,除此之外存在4个错配,但是没有给出具体的位置。至于具体的比对结果,可以在比对区域右击调取比对详细信息,确认具体的错配位置及错配碱基。
以下是某个区间的比对序列
可以看到黑猩猩chr1:15003613与人chr1:14908379位置发生错配,对应碱基分别为G和A。
以上是Comparative Genome Viewer中涉及的基本信息,以后使用过程中有什么有趣的结果再分享给大家。
参考文章
[1] https://ncbiinsights.ncbi.nlm.nih.gov/2023/05/04/remap-tool-to-retire/
[2] https://www.ncbi.nlm.nih.gov/genome/cgv/cm/cgv/more_info
#以上只是个人测试结果及想法,不代表软件的好坏#
#如有侵权,请告知删除#
#如有错误,欢迎指正#