用faCount计算有效基因组大小

faCount是UCSC中的一个工具,UCSC的安装可以看我的相关笔记
faCount可以统计得到基因组数据中的总碱基数基因组装配中缺失碱基数(即被标位N的碱基)。
有效基因组大小 = 总碱基数 - 被标为N的碱基数

$ faCount csi.chromosome.fa
#seq    len     A       C       G       T       N       cpg
chr1    28800734        8998530 4599939 4612033 8991187 1599045 454414
chr2    30837053        9651458 4941569 4953578 9646645 1643803 477195
chr3    28714068        8835469 4553243 4556295 8807282 1961779 455628
chr4    19953105        6147050 3199362 3202541 6194030 1210122 313534
chr5    36146064        11203242        5782007 5785538 11207898        2167379 564410
chr6    21179577        6595931 3401500 3396773 6606163 1179210 336809
chr7    32205053        9868781 5124838 5113035 9845517 2252882 510283
chr8    22710839        6925300 3568907 3567985 6935555 1713092 347638
chr9    18450726        5609179 2911080 2926460 5646576 1357431 293562
chrUn   88947451        25456073        13151652        13216648        25413739        11709339        1250058
total   327944670       99291013        51234097        51330886        99294592        26794082        5003531

如上得到的数据中:
总碱基数 = 327944670
被标为N的碱基数 = 26794082
有效基因组大小 = 327944670 - 26794082 = 301150588


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容