RagTag基于参考基因组的组装和GeMoMa注释

RagTag安装及使用

说明书：//www.greatytc.com/p/c18f7cac43c6

基于参考基因组的组装一般是将contigs或scaffolds与近缘或同一物种的基因组进行比对，从而提升至染色体水平，比较常用的是RagTag工具包，是RaGOO的升级版。有的时候，我们没有相关图谱数据，只能采用此方法将基因组提升至染色体水平。

我一开始打算用RaGOO的，但是下载好了之后，README文件说已经不再支持RaGOO了，请用RagTag。

RagTag, Reference-guided genome assembly correction and scaffolding.
是Ragoo的一个升级，可对contig错误组装校正、scaffold组装和修补、scaffold合并，还可以基于Hi-C数据进行正确锚定。

安装

conda install -c bioconda ragtag

使用

Correct

校正是使用参考基因组来鉴定和校正contigs中的组装错误，该步骤不会将序列减少或增加，是将序列在错误组装的位置进行打断。

ragtag.py correct ref.fasta query.fasta -t 8

说明书：

  <reference.fa>        参考基因组fasta文件 (压缩包也可以)
  <query.fa>            所需基因组fasta文件 (压缩包也可以)

correction options:
  -f INT                最小唯一对准长度 [默认1000]
  --remove-small        删除比最小唯一对准长度短的唯一对齐
  -e <exclude.txt>      需要剔除的参考序列的标题表 [默认无]
  --inter               只打断引用序列之间的错误组合
  --intra               只打破引用序列之内的错误组合
  --gff <features.gff>  不要在GFF文件间隔内中断序列 [默认无]

input/output options:
  -o PATH               输出文件目录 [默认./ragtag_output]
  -w                    覆盖中间文件
  -u                    添加后缀到未更改的序列标题

mapping options:
  -t INT                minimap2/unimap的线程数 [默认1]

Scaffold

该步骤是将相邻的contigs序列用100个N连起来，序列的位置和方向需要根据与参考基因组的比对结果确定。

ragtag.py scaffold ref.fa ragtag_output/query.corrected.fasta

说明书：

scaffolding options:
  -C                   把没有地方放的contigs归并为“chr0”
  -r                   规定gap sizes，如果不规定，默认所有gaps为100 bp
  -g INT               最小的gap size [默认100]
  -m INT               最大的gap size [默认100000]

input/output options:
  -o PATH              输出文件目录 [默认./ragtag_output]
  -w                   覆盖中间文件
  -u                   添加后缀到未更改的序列标题

mapping options:
  -t INT               minimap2/unimap的线程数 [默认1]

Patch

该步骤是用contigs序列对上一步得到的scaffold序列进行gap填补。该步骤比较耗时，如果急需使用基因组进行后续分析，可以省略该步骤。
用法：具体参数可以 -h 查看

ragtag.py patch <target.fa> <query.fa>

Merge

在scaffolding过程中，可能会根据不同参数或图谱数据产生多个版本的基因组组装结果，该步骤可以将多个结果根据权重进行最终组装结果的生成。

如果有HiC数据，还可以加入HiC数据生成比较好的组装结果。
多参考基因组的情况：

ragtag.py scaffold -o out_1 ref1.fasta query.fasta
ragtag.py scaffold -o out_2 ref2.fasta query.fasta
ragtag.py merge query.fasta out_*/*.agp

有HI-C数据的情况：

ragtag.py merge -b hic.bam query.fasta out_*/*.agp

GeMoMa注释

官方说明书：http://www.jstacs.de/index.php/GeMoMa
GeMoMa (Gene Model Mapper)是一种基于同源性的基因预测程序。GeMoMa利用参考基因组中蛋白质编码基因的注释来推断目标基因组中蛋白质编码基因的注释。因此，GeMoMa利用了氨基酸序列和内含子位置保守性。此外，GeMoMa能结合RNA-seq进行剪接位点预测。

GeMoMa工作流程

安装

参考：//www.greatytc.com/p/6d9d9f0c38a6

但是需要提前先安装了以下软件

Java v1.8 或更新的版本
blast or mmseqs
然后再安装GeMoMa

conda install -c bioconda gemoma

注意：如果没有把软件放到环境变量中，那只能到该软件的含有可执行文件的目录下使用。

使用

有3个脚本可使用：

test.sh：一个测试脚本，检查GeMoMa是否可以在您的系统上运行。示例数据可以在目录测试中找到。
run.sh：其允许使用各个模块的最小参数输入启动完整的GeMoMa。
pipeline.sh：和run.sh相比，多了一个多线程。

没有RNA-seq数据的情况

run.sh

./run.sh <search> <target-genome> <ref-anno> <ref-genome> <out-dir>

pipeline.sh

./pipeline.sh <search> <target-genome> <ref-anno> <ref-genome> <threads> <out-dir>

有RNA-seq数据的情况