引言
今分享基因组结构变异检测的教程,大家常用的软件基本是minimap2
软件,这个软件也是出自李恒大佬
之手,但是对于新手小白,或是没有服务器的同学而言,直接在本地使用minimap2
是不现实的。
然而
,今天可以啦。
这个主要是归功于CJ老师开发的TBtools软件。非常厉害的一个生信化软件,TBtools问世以来真是造福了多少生信小白。用过以后,你会一直使用下去的
。自己在19年开始了解TBtools,一直到现在,中间换过多台电脑,但是首选安装的软件中一定会有它。
我们前面做过基于TBtools做基因家族分析 | 生信部分,绘制Circos基因圈图 | TBtools等几个教程。
今天,我本想直接使用minimap2
来跑一下,抱着TBtools可能会有的心情,就去搜索了一下教程,结果真的有哦!
那么也就是记录一下,这个分析过程,详细的教程和参数CJ老师,也在对应教程推送过。我们也在推文中记录一下,方便你我他!
参考:
基因组结构变异检测
1. 打开TBtools,安装Genome VarScan
插件
2. 找到Sequence analysis
文件夹
3. 找到P00560**
4. 点击install
5. 打开插件
在这里,我们直接使用CJ老师教程内容,介绍对应参数。参考:TBtools | 基因组结构变异检测插件 Genome VarScan 参数说明
- 调用Minimap2进行两个基因组的比对,生成一个paf文件
- 基于paf文件,提取编译,其中包括SV和SNP,一般我们就关注SV
其中第一步没有过多调整空间,第二步可以理解为 paftools.js 的 java 实现。所以整体参数和效果,跟 minimap2+paftools.js 鉴定结构变异几乎一样。详解如下:
- CPU:线程数,默认是2 ,进行两基因组全序列比对时可使用,注意到,越多线程会使用越多内存,我测试大体水稻基因组的比对,那么一个线程大概要4G 内存。其实具体跟后续BatchSize参数有关系;
- Diff:三个基因组序列分歧度标准,如果似乎非常近源甚至是同个物种或品种,那么 OneInThousand,指代1000个碱基只有1个碱基不同;OneInHundred,指代100个碱基会有1个碱基不同。基本上,这两个可以处理绝大多数物种材料。当然,对于比如一些园艺作物,多年生,高杂合材料等等,不同材料的基因组差异可能会比较大,比如 FiveInHundread,指代100个碱基会有5个不同,这个已经支持了跨物种的比对,比如甜橙比对到荔枝... 按照需要来调整,这个可以提高灵敏度和准确性
- VarRange:共两个参数,一般如果是做多态性引物开发,30~200以及足够,再长也不方便跑PCR电泳区分
- BatchSize:每次读入内存,用于比对到数据块大小,会直接影响内存占用,500Mb 每次默认。如果发现基因组比较大,可以考虑降低,比如做到 200。
- Min Align Length for Cov Calc:如果一个 Alignment 长度低于给定值,比如 10000 ,就不参与覆盖度的计算。逻辑上对于两个物种单倍型比对,最好的比对结果 Cov 是 1 。不然可能是假阳性比对,对应了假SV。过滤长度,避免比对碎片影响 Cov 计算。
- Min Align Length for Var Calling:如果一个 Alignment 长度低于给定值,比如 50000,就不进行 SV 检测。逻辑上,过短的比对,也不适合做 SV 检测。当然,检测了SV,那么也考虑Cov的问题。
- MaqQ:如果比对质量低于给定值,那么不进行变异检测。逻辑上,可以只用 MapQ 60 。毕竟这个对应最高质量。需要注意的是,MapQ = 60 很容易达成。从某个角度来说,比对质量是基于 Query 来说的,查询序列没有更好或者相对较好的比对位置时,那么就会有 MapQ60。所以对于Subject来说,同一个位置可以有多个MapQ 的比对,但其中最好,逻辑上只有一个。当然那这个是展开。
- PrintSeq:结果文件中是否要包含SV相关序列,注意到如果 INS 或 DEL 非常大,那么这个序列会很长。
6. 比对
结合自己的需求将对应的基因组fa文件拖进去即可。比对还是很快的,我这里使用15个CUP,基因组小一点,几分钟就可以完成。
7. 使用PAF Viz
进行可视化
直接在搜索框搜索PAF Viz
即可。
将其输出的PAF文件拖进去即可进行可视化。
感叹
时间飞逝,我们可能一转眼硕士,博士就毕业了,亦或是一转眼毕业好多年。但是,回头想一想,我们在以往的时间中又留下了什么呢?难道真的如《再别康桥》中所说,轻轻的我走了,正如我轻轻的来,我轻轻的招手,作别西天的云彩。
自己做分享,亦或是自己的学习笔记,马上3年。你问我,这3年,你分享了什么呢?若是,没有推文,自己也很难回答。但,回头一看自己的文件夹,嗯,还是有点痕迹
的。好比,TBtools,就是一个生信软件,但是你深挖一下,给你的感觉就是:哇哦,很有干货哦!不亏是CJ老师。(PS:这里并不是吹捧TBtools,只是自己使用后的感悟。此外,这也不是我第一次推荐TBtools。)
往期部分文章
1. 最全WGCNA教程(替换数据即可出全部结果与图形)
推荐大家购买最新的教程,若是已经购买以前WGNCA教程的同学,可以在对应教程留言,即可获得最新的教程。(注:此教程也仅基于自己理解,不仅局限于此,难免有不恰当地方,请结合自己需求,进行改动。)
2. 精美图形绘制教程
3. 转录组分析教程
4. 转录组下游分析
小杜的生信筆記 ,主要发表或收录生物信息学教程,以及基于R分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!