RagTag安装及使用
说明书://www.greatytc.com/p/c18f7cac43c6
基于参考基因组的组装一般是将contigs或scaffolds与近缘或同一物种的基因组进行比对,从而提升至染色体水平,比较常用的是RagTag工具包,是RaGOO的升级版。有的时候,我们没有相关图谱数据,只能采用此方法将基因组提升至染色体水平。
我一开始打算用RaGOO的,但是下载好了之后,README文件说已经不再支持RaGOO了,请用RagTag。
RagTag, Reference-guided genome assembly correction and scaffolding.
是Ragoo的一个升级,可对contig错误组装校正、scaffold组装和修补、scaffold合并,还可以基于Hi-C数据进行正确锚定。
安装
conda install -c bioconda ragtag
使用
Correct
校正是使用参考基因组来鉴定和校正contigs中的组装错误,该步骤不会将序列减少或增加,是将序列在错误组装的位置进行打断。
ragtag.py correct ref.fasta query.fasta -t 8
说明书:
<reference.fa> 参考基因组fasta文件 (压缩包也可以)
<query.fa> 所需基因组fasta文件 (压缩包也可以)
correction options:
-f INT 最小唯一对准长度 [默认1000]
--remove-small 删除比最小唯一对准长度短的唯一对齐
-e <exclude.txt> 需要剔除的参考序列的标题表 [默认无]
--inter 只打断引用序列之间的错误组合
--intra 只打破引用序列之内的错误组合
--gff <features.gff> 不要在GFF文件间隔内中断序列 [默认无]
input/output options:
-o PATH 输出文件目录 [默认./ragtag_output]
-w 覆盖中间文件
-u 添加后缀到未更改的序列标题
mapping options:
-t INT minimap2/unimap的线程数 [默认1]
Scaffold
该步骤是将相邻的contigs序列用100个N连起来,序列的位置和方向需要根据与参考基因组的比对结果确定。
ragtag.py scaffold ref.fa ragtag_output/query.corrected.fasta
说明书:
scaffolding options:
-C 把没有地方放的contigs归并为“chr0”
-r 规定gap sizes,如果不规定,默认所有gaps为100 bp
-g INT 最小的gap size [默认100]
-m INT 最大的gap size [默认100000]
input/output options:
-o PATH 输出文件目录 [默认./ragtag_output]
-w 覆盖中间文件
-u 添加后缀到未更改的序列标题
mapping options:
-t INT minimap2/unimap的线程数 [默认1]
Patch
该步骤是用contigs序列对上一步得到的scaffold序列进行gap填补。该步骤比较耗时,如果急需使用基因组进行后续分析,可以省略该步骤。
用法:具体参数可以 -h 查看
ragtag.py patch <target.fa> <query.fa>
Merge
在scaffolding过程中,可能会根据不同参数或图谱数据产生多个版本的基因组组装结果,该步骤可以将多个结果根据权重进行最终组装结果的生成。
如果有HiC数据,还可以加入HiC数据生成比较好的组装结果。
多参考基因组的情况:
ragtag.py scaffold -o out_1 ref1.fasta query.fasta
ragtag.py scaffold -o out_2 ref2.fasta query.fasta
ragtag.py merge query.fasta out_*/*.agp
有HI-C数据的情况:
ragtag.py merge -b hic.bam query.fasta out_*/*.agp
GeMoMa注释
官方说明书:http://www.jstacs.de/index.php/GeMoMa
GeMoMa (Gene Model Mapper)是一种基于同源性的基因预测程序。GeMoMa利用参考基因组中蛋白质编码基因的注释来推断目标基因组中蛋白质编码基因的注释。因此,GeMoMa利用了氨基酸序列和内含子位置保守性。此外,GeMoMa能结合RNA-seq进行剪接位点预测。
安装
参考://www.greatytc.com/p/6d9d9f0c38a6
但是需要提前先安装了以下软件
conda install -c bioconda gemoma
注意:如果没有把软件放到环境变量中,那只能到该软件的含有可执行文件的目录下使用。
使用
有3个脚本可使用:
- test.sh:一个测试脚本,检查GeMoMa是否可以在您的系统上运行。示例数据可以在目录测试中找到。
- run.sh:其允许使用各个模块的最小参数输入启动完整的GeMoMa。
- pipeline.sh:和run.sh相比,多了一个多线程。
没有RNA-seq数据的情况
run.sh
./run.sh <search> <target-genome> <ref-anno> <ref-genome> <out-dir>
pipeline.sh
./pipeline.sh <search> <target-genome> <ref-anno> <ref-genome> <threads> <out-dir>
有RNA-seq数据的情况
run.sh
./run.sh <search> <target-genome> <ref-anno> <ref-genome> <out-dir> <lib-type> <mapped-reads>
pipeline.sh
./pipeline.sh <search> <target-genome> <ref-anno> <ref-genome> <threads> <out-dir> <lib-type> <mapped-reads>
参数解释:
search 用什么搜索算法tblastn or mmseqs
target-genome 目标物种基因组(FastA)
ref-anno 参考物种的注释文件(GFF/GTF)
ref-genome 参考物种基因组(FastA)
threads 线程数
out-dir 输出目录
lib-type RNA-seq库类型({FR_UNSTRANDED, FR_FIRST_STRAND, FR_SECOND_STRAND})
mapped-reads 比对上的RNA-seq reads (SAM/BAM)
还有一些其他功能:提取CDS序列;预测候选转录本;聚合和过滤预测结果等等,还能做共线性。这些功能就等你们去挖掘啦~