RagTag基于参考基因组的组装和GeMoMa注释

RagTag安装及使用

说明书://www.greatytc.com/p/c18f7cac43c6

基于参考基因组的组装一般是将contigs或scaffolds与近缘或同一物种的基因组进行比对,从而提升至染色体水平,比较常用的是RagTag工具包,是RaGOO的升级版。有的时候,我们没有相关图谱数据,只能采用此方法将基因组提升至染色体水平。

我一开始打算用RaGOO的,但是下载好了之后,README文件说已经不再支持RaGOO了,请用RagTag。

RagTag, Reference-guided genome assembly correction and scaffolding.
是Ragoo的一个升级,可对contig错误组装校正、scaffold组装和修补、scaffold合并,还可以基于Hi-C数据进行正确锚定。

安装

conda install -c bioconda ragtag

使用

Correct

校正是使用参考基因组来鉴定和校正contigs中的组装错误,该步骤不会将序列减少或增加,是将序列在错误组装的位置进行打断。

ragtag.py correct ref.fasta query.fasta -t 8

说明书:

  <reference.fa>        参考基因组fasta文件 (压缩包也可以)
  <query.fa>            所需基因组fasta文件 (压缩包也可以)

correction options:
  -f INT                最小唯一对准长度 [默认1000]
  --remove-small        删除比最小唯一对准长度短的唯一对齐
  -e <exclude.txt>      需要剔除的参考序列的标题表 [默认无]
  --inter               只打断引用序列之间的错误组合
  --intra               只打破引用序列之内的错误组合
  --gff <features.gff>  不要在GFF文件间隔内中断序列 [默认无]

input/output options:
  -o PATH               输出文件目录 [默认./ragtag_output]
  -w                    覆盖中间文件
  -u                    添加后缀到未更改的序列标题

mapping options:
  -t INT                minimap2/unimap的线程数 [默认1]

Scaffold

该步骤是将相邻的contigs序列用100个N连起来,序列的位置和方向需要根据与参考基因组的比对结果确定。

ragtag.py scaffold ref.fa ragtag_output/query.corrected.fasta

说明书:

scaffolding options:
  -C                   把没有地方放的contigs归并为“chr0”
  -r                   规定gap sizes,如果不规定,默认所有gaps为100 bp
  -g INT               最小的gap size [默认100]
  -m INT               最大的gap size [默认100000]

input/output options:
  -o PATH              输出文件目录 [默认./ragtag_output]
  -w                   覆盖中间文件
  -u                   添加后缀到未更改的序列标题

mapping options:
  -t INT               minimap2/unimap的线程数 [默认1]

Patch

该步骤是用contigs序列对上一步得到的scaffold序列进行gap填补。该步骤比较耗时,如果急需使用基因组进行后续分析,可以省略该步骤。
用法:具体参数可以 -h 查看

ragtag.py patch <target.fa> <query.fa>

Merge

在scaffolding过程中,可能会根据不同参数或图谱数据产生多个版本的基因组组装结果,该步骤可以将多个结果根据权重进行最终组装结果的生成。

如果有HiC数据,还可以加入HiC数据生成比较好的组装结果。
多参考基因组的情况:

ragtag.py scaffold -o out_1 ref1.fasta query.fasta
ragtag.py scaffold -o out_2 ref2.fasta query.fasta
ragtag.py merge query.fasta out_*/*.agp

有HI-C数据的情况:

ragtag.py merge -b hic.bam query.fasta out_*/*.agp

GeMoMa注释

官方说明书:http://www.jstacs.de/index.php/GeMoMa
GeMoMa (Gene Model Mapper)是一种基于同源性的基因预测程序。GeMoMa利用参考基因组中蛋白质编码基因的注释来推断目标基因组中蛋白质编码基因的注释。因此,GeMoMa利用了氨基酸序列和内含子位置保守性。此外,GeMoMa能结合RNA-seq进行剪接位点预测。

GeMoMa工作流程

安装

参考://www.greatytc.com/p/6d9d9f0c38a6

但是需要提前先安装了以下软件

  • Java v1.8 或更新的版本
  • blast or mmseqs
    然后再安装GeMoMa
conda install -c bioconda gemoma  

注意:如果没有把软件放到环境变量中,那只能到该软件的含有可执行文件的目录下使用。

使用

有3个脚本可使用:

  • test.sh:一个测试脚本,检查GeMoMa是否可以在您的系统上运行。示例数据可以在目录测试中找到。
  • run.sh:其允许使用各个模块的最小参数输入启动完整的GeMoMa。
  • pipeline.sh:和run.sh相比,多了一个多线程。

没有RNA-seq数据的情况

run.sh

./run.sh <search> <target-genome> <ref-anno> <ref-genome> <out-dir>

pipeline.sh

./pipeline.sh <search> <target-genome> <ref-anno> <ref-genome> <threads> <out-dir>

有RNA-seq数据的情况

run.sh

./run.sh <search> <target-genome> <ref-anno> <ref-genome> <out-dir> <lib-type> <mapped-reads>

pipeline.sh

./pipeline.sh <search> <target-genome> <ref-anno> <ref-genome> <threads> <out-dir> <lib-type> <mapped-reads>

参数解释:

search               用什么搜索算法tblastn or mmseqs
target-genome        目标物种基因组(FastA)
ref-anno             参考物种的注释文件(GFF/GTF)
ref-genome           参考物种基因组(FastA)
threads              线程数
out-dir              输出目录
lib-type             RNA-seq库类型({FR_UNSTRANDED, FR_FIRST_STRAND, FR_SECOND_STRAND})
mapped-reads         比对上的RNA-seq reads (SAM/BAM)

还有一些其他功能:提取CDS序列;预测候选转录本;聚合和过滤预测结果等等,还能做共线性。这些功能就等你们去挖掘啦~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,386评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,142评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,704评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,702评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,716评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,573评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,314评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,230评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,680评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,873评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,991评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,706评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,329评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,910评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,038评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,158评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,941评论 2 355

推荐阅读更多精彩内容