基因组组装—SOAPdenovo2的使用

一、简介


SOAPdenovo2是用于short-read组装的软件,能够组装出类似人类基因组大小的de novo草图。SOAPdenovo主要用于大型植物动物基因组的组装,当然也适用于组装细菌和真菌,组装大型基因组,如人类时,可能需要150G内存。

二、下载与安装


1.下载

GitHub - aquaskyline/SOAPdenovo2: Next generation sequencing reads de novo assembler.

如下图,点击Download ZIP下载安装包,然后通过Xftp上传服务器的指定文件夹

点击Download ZIP下载后通过Xftp上传服务器

2.安装

解压后进入目录,输入make进行编译即可

unzip SOAPdenovo2-master.zip
cd SOAPdenovo2-master
make

三、使用


1.构建configuration file

SOAPdenovo2的使用需要自己构建配置文件,可以根据软件目录中的示例配置文件"example.config"进行构建,主要包含以下参数:

1)max_rd_len 

唯一的全局配置参数,read的最大长度,任何比它大的read会被切到这个长度,该值一般设置的比实际read读长稍微短一些

2)avg_ins 

文库的平均插入长度

3)reverse_seq 

是否需要将序列反向互补,Illumima GA 产生两种 paired-end 文库:一是forward-reverse;另一个是 reverse-forward。"reverse_seq"参数应该如下设置:0,forward-reverse(插入片段少于500 bp);1,reverse-forward(插入片段 2 kb 以上的环状文库)

3)asm_flags

决定reads在组装的哪些过程中用到,1(仅进行contig组装);2(仅进行scaffold组装);3(contig和scaffold都组装);4(只进行gap closure)

4)rd_len_cutof

与 max_rd_len 类似,均是将比它大的read切到这个长度

5)rank

为整数值,它决定在scaffold组装时reads被利用的顺序。文库中具有同样rank值的会被同时使用(在组装scaffold时)。

6)pair_num_cutoff

可选参数,规定了连接两个contig或者是pre-scaffold 的可信连接的阈值,即当连接数大于该值,连接才算有效。对于pair-end数据,默认值为3;对于mate-paird数据,默认值为5

7)map_len

可选参数,规定了在map过程中reads和contig的比对长度必须达到该值,该比对才能作为一个可信的比对。对于paired-end数据,默认值为32;对于mate-pair数据,默认值为35

举个例子:

#maximal read length
max_rd_len=150
[LIB]
#average insert size
avg_ins=350
#if sequence needs to be reversed
reverse_seq=0
#in which part(s) the reads are used
asm_flags=3
#use only first 100 bps of each read
rd_len_cutoff=150
#in which order the reads are used while scaffolding
rank=1
# cutoff of pair number for a reliable connection (at least 3 for short insert size)
pair_num_cutoff=3
#minimum aligned length to contigs for a reliable read location (at least 32 for short insert size)
map_len=32
#a pair of fastq file, read 1 file should always be followed by read 2 file
f1=D1700703_1.fa
f2=D1700703_2.fa

#single-reads用"f=/path/filename" or "q=/path/filename" 表示 fasta or fastq 格式
#paired-reads被放在两个fasta文件中,分别为"f1=" and "f2=";fastq文件由"q1=" and "q2="表示
#paired-reads如果全在一个fasta文件中,则用"p=" 选项
#reads在bam文件中则用"b="选项

2.运行

运行分为两种方式,一般采用一站式运行

1)一站式运行

SOAPdenovo-63mer all -s config_file -K 63 -R -o graph_prefix 1>ass.log 2>ass.err

all的常用参数

-s <string>    配置文件:config
-o <string>    输出图形文件名的前缀
-K <int>       输入的kmer(最小13, 最大63/127): 默认值[23]
-p <int>       线程数,默认值[8]
-a <int>       初始化内存:避免内存再分配,默认[0]G
-d <int>       去除kmers频数不大于该值的k-mer,默认值[0]
-R (optional)  利用read鉴别短的重复序列,默认值[NO]
-D <int>       去除频数不大于该值(edgeCovCutoff)的由k-mer连接的边,默认值[1],即该边上每个点的频数都小于等于1时才去除
-M <int>       在contiging操作时,合并相似序列的强度,默认值为[1],最小值0,最大值3
-f (optional)  在map那一步中,对于使用SRkgf去填充gap,输出与gap相关的reads,默认[NO]
-F (optional)  利用read对scaffold中的gap进行填补,默认[NO]
-u (optional)  构建scaffolding前不屏蔽高/低覆盖度的contigs,这里高频率覆盖度指平均contig覆盖深度的2倍。默认[mask]屏蔽
-G <int>       估计gap的大小和实际补gap的大小的差异值,默认值[50]bp
-L <int>       用于构建scaffold的contig的最短长度(minContigLen),默认为:[Kmer参数值+2]

# 使用下面的命令查看其余参数
SOAPdenovo-63mer all -h

2)分步运行

#step1
SOAPdenovo-63mer pregraph -s config_file -K 63 -R -o graph_prefix 1>pregraph.log 2>pregraph.err
#step2
SOAPdenovo-63mer contig -g graph_prefix -R 1>contig.log 2>contig.err
#step3
SOAPdenovo-63mer map -s config_file -g graph_prefix 1>map.log 2>map.err
#step4
SOAPdenovo-63mer scaff -g graph_prefix -F 1>scaff.log 2>scaff.err

3)输出文件
运行的结果文件中,其中有下面两个主要的组装结果文件

*.contig  # contig序列文件
*.scafSeq # scaffold序列文件

参考:


SOAPdenovo2的安装使用
目前最好最完整的SOAPdenovo使用说明
基因组组装工具之 SOAPdenovo 使用方法
SOAPdenovo组装软件使用记录
soapdenovo2进行基因组组装

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容