写在前面
全基因组层面可视化特征标记(如基因位点),从文字标签到图形标签。文字标签应该是三四年前实现的。图形标签,Emmm,事实上,这个功能已经实现了太久,以至于我自己只记得可以实现,而不记得如何使用。考虑到昨天推出这个功能后,不少朋友还是挺感兴趣,于是想了一下,那就干脆写一个教程贴。大体介绍下,这个功能到底咋用。
IOS 逻辑
前述我在推文和几场直播中,都已经提及 TBtools 的 IOS 逻辑。相信大家都不陌生。此处我们直接进入主题,看看具体可视化所需的文件及其格式:
以下逐个文件展开说明
染色体长度文件
顾名思义,记录了每条染色体的长度信息。只要有基因组序列文件,可以使用 TBtools 的 Fasta Stat 直接生成一个。如下
于是可以得到
特征标记的染色体位置
这个文件,得靠大家自己准备了。比如可以是某个基因家族的成员,或差异表达基因分布,更或者分支标记等信息。此处,我们使用 sRNAanno 数据库上 水稻 的 PHAS 注释信息,进行可视化。直接在
http://plantsrna.org/PHAS21list.jsp?species=Oryza_sativa 页面复制,保存到本地 txt 文件即可。对应的 24 nt PHAS的链接为 http://plantsrna.org/PHAS24list.jsp?species=Oryza_sativa
注意,在Excel里面做文本整理,记得另存为 制表符分隔 的文本文件。
特征标记的着色信息
TBtools 支持两类输入:
- 标记ID\tR,G,B
- 标记ID\tlog2Fc
很明显,前者的意思是,对标记ID进行颜色自定义,后者是一个偷懒过程。比如log2Fc是正数,那么就会显示为红色,是负数就会显示为绿色。对于 PHAS 位点,有不成文的着色方案。所以 21 PHAS 位点,我们全部给蓝色,而 24 PHAS 位点,我们全部给橙色,如下,
染色体热图信息文件
... 可以使用 TBtools 的 Gene Density Profile 功能,基于基因结构注释的GFF3/GTF文件直接生成,具体参考《生信札记》公众号往期推文《TBtools | 全基因组 - 基因密度统计,充实你的图片》。
准备就绪
进行可视化!
Emmm,我们必须承认,这是一个不错的开始。起码已经可视化出来的。只是.....
水稻的PHAS位点太多了,以至于图片太长,我们无法很好的展示。
使用图形标签
于是,我们只需要对 基因位置信息 文件增加一列即可。如下,
原来的文件信息,
我们对所有 PHAS21 位点信息增加一列 0,而对所有 PHAS24 位点信息增加一列 1。(当然,目前是支持四种性状,0,1,2,3,如果需要增加维度,建议和着色信息做组合)。得到
保存后用于可视化,于是得到
优化可视化参数
使用了图形标签之后,可以发现,多少还是有不少希望。我们可以进一步压缩邻近的位点,比如把距离不超过100kb的PHAS位点合并展示,于是可以得到
对其他参数做一些调整
不止于此
JIGplot 的重点不在于可视化,而在于可视化分析。图形的可交互性是一大特征。昨天的推文推出后,即有用户提及交互性问题。是的,我们合并了一些位点用于可视化,那么是不是也应该知道哪些位点被合并了?
写在最后
路漫漫其修远兮,吾将上下而求索~
差不多又要开始忙找工作的事情了。
前段时间找工作,联系上的人存在明显的两极分化:
- 大部分人是看得上我的能力和为人,给了非常不错的机会以及建议,我仍然在选择...毕竟 12 月份才正式毕业
- 少部分人是一种明显看不上我的角度,果断拉黑。
基于已有经验,一般人与人之间的关系是相互的,大体是两种:
- 你看得上我,我也看得上你
- 互相瞧不起
为了保持平衡,前者 Label,后者必须拉黑。