写在前面
最近可以用来工作的时间少得可怜...但项目总归是要一步一步推进。每天都可能会怀疑人生,然后遗忘或者突破这个怀疑。或许这就是人生无可奈何的一部分。
回到主题。前述,开设了“TBtools吐槽大会”板块,可以方便各种对 TBtools 开发有意见或者建议的朋友过去提一提。当然也可以吐槽软件这里不好,那里不好。
其中有一个建议还不错:
大体是看看基因组序列中未知碱基的分布(一般用 N 指代),以此来判断基因组不同区域的组装质量(是否有 Gap 等)。
正好手上的项目确实需要用上,同时我也想起来多年前做细菌基因组时 GCskew 等指标的计算。于是顺手在 TBtools 中增加了一个小功能。
Fasta Window Stat
界面如下:
使用起来太过简单,一般啥也不用管,直接拿到一个基因组的 Fasta 序列文件即可动工。
运行完成后,可在输出目录中看到三个文件,分别是
- Nratio,即未知碱基的分布情况
- GCratio,即GC含量的分布变化情况
- GCskew,即GC偏向性情况(一般针对单链基因组有用)
大体文件内容如下
使用 Advanced Circos 进行简单可视化,可见
可以看出:
- 在真核生物或者基因组非环状的材料来说,其实 GCskew 没啥意义;
- 拟南芥 Chr1 的中间部分(应是着丝粒),含有大量 N ,该部分在 GCratio 上数据存在缺失(比例极小),同时 GCskew 明显异常。
写在最后
路漫漫,其修远兮;一切还是靠自己。