三代数据组装
Pacbio CLR & Nanopore: 50X~100X,最低不能低于30X
Pacbio HiFi : 25X 以上
三代读长的优势
推荐软件
canu
canu 是一款持续更新的三代拼接软件,同时支持pacbio CLR 、HiFi 和nanopore 测序数据做输入。该软件非常消耗计算资源,但结果比较准确。
下载地址: https://github.com/marbl/canu/releases
软件使用说明:https://canu.readthedocs.io/en/latest/index.html
参考脚本
canu \
-pacbio ./pacbio.fastq.gz \ #测序数据
-p test \ #指定输出文件前缀
-d ./output \ #指定输出目录
genomeSize=4.6m \ #预期的基因组大小
useGrid=false \ #是否使用集群
maxMemory=30G \ # 设置内存大小
maxThreads=20 #设置线程数
# nanopore数据设置: -nanopore ont.fq
# HiFi数据设置: -pacbio-hifi hifi.fq
# corOutCoverage 默认为40
# corMinCoverage 默认为4
-
结果文件
test.contigs.fasta ## 最终拼接结果
test.correctedReads.fasta.gz ## 纠错后的reads
WTDBG2
wtdbg2 也同时支持pacbio 和nanopore 测序数据,运行很快,消耗资源也相对较低,适合大基因组拼接。
下载地址:https://github.com/ruanjue/wtdbg2/releases
参考脚本
## 组装
wtdbg2 \
-t 4 \#指定线程数
-x rs \#输入reads的类型
-g 4.5M \#预期基因组大小
-L 1000 \#reads小于1000丢弃
-l 1000 \#overlap的长度
-e 2 \#区域覆盖次数超过2认为可信度高
-i ./pacbio.fastq.gz \ #指定的输入文件格式
-o test #输出文件前缀
## 得到一致性序列
### wtdbg-cns
wtdbg-cns \
-t 6 \
-i test.ctg.lay.gz \ #上一步生成的文件
-f \#覆盖之前的结果
-o test.wtdbg-cns.fa
### wtpoa-cns
wtpoa-cns \
-t 6 \
-i test.ctg.lay.gz \
-f \
-o test.wtpoa-cns.fa
-
结果文件
test.wtdbg-cns.fa #拼接结果
flye
flye 软件支持CLR、HiFi 和nanopore 数据做输入,也是一款常用的三代数据拼接软件。
下载地址:https://github.com/fenderglass/Flye
参考脚本
flye \
--pacbio-raw ./pacbio.fastq.gz \
--out-dir flye_out \
--genome-size 4.6m \
--threads 6
-
结果文件
assembly.fasta #拼接结果