三代数据组装

Pacbio CLR & Nanopore: 50X~100X，最低不能低于30X
Pacbio HiFi : 25X 以上

三代读长的优势

推荐软件

canu

canu 是一款持续更新的三代拼接软件，同时支持pacbio CLR 、HiFi 和nanopore 测序数据做输入。该软件非常消耗计算资源，但结果比较准确。
下载地址: https://github.com/marbl/canu/releases
软件使用说明：https://canu.readthedocs.io/en/latest/index.html

参考脚本

canu \
-pacbio  ./pacbio.fastq.gz \ #测序数据
-p test \ #指定输出文件前缀
-d ./output \ #指定输出目录
genomeSize=4.6m \ #预期的基因组大小
useGrid=false \ #是否使用集群
maxMemory=30G \ # 设置内存大小
maxThreads=20 #设置线程数
# nanopore数据设置： -nanopore ont.fq 
# HiFi数据设置： -pacbio-hifi hifi.fq
# corOutCoverage 默认为40
# corMinCoverage 默认为4

结果文件

test.contigs.fasta ## 最终拼接结果
test.correctedReads.fasta.gz ## 纠错后的reads

WTDBG2

wtdbg2 也同时支持pacbio 和nanopore 测序数据，运行很快，消耗资源也相对较低，适合大基因组拼接。
下载地址：https://github.com/ruanjue/wtdbg2/releases

参考脚本

## 组装
wtdbg2 \
-t 4 \#指定线程数
-x rs \#输入reads的类型
-g 4.5M \#预期基因组大小
-L 1000 \#reads小于1000丢弃
-l 1000 \#overlap的长度
-e 2  \#区域覆盖次数超过2认为可信度高
-i ./pacbio.fastq.gz \ #指定的输入文件格式
-o test #输出文件前缀

## 得到一致性序列
###  wtdbg-cns
wtdbg-cns \
-t 6 \
-i test.ctg.lay.gz \ #上一步生成的文件
-f \#覆盖之前的结果
-o test.wtdbg-cns.fa


### wtpoa-cns
wtpoa-cns \
-t 6 \
-i test.ctg.lay.gz \
-f \
-o test.wtpoa-cns.fa

结果文件

test.wtdbg-cns.fa #拼接结果

flye

flye 软件支持CLR、HiFi 和nanopore 数据做输入，也是一款常用的三代数据拼接软件。
下载地址：https://github.com/fenderglass/Flye

参考脚本

flye \
--pacbio-raw  ./pacbio.fastq.gz \
--out-dir  flye_out \
--genome-size 4.6m \
--threads 6

结果文件

assembly.fasta #拼接结果

三代测序数据组装

三代测序数据组装

三代数据组装

三代读长的优势

推荐软件

canu

参考脚本

WTDBG2

参考脚本

flye

参考脚本

欢迎关注bioinfor 生信云！

推荐阅读更多精彩内容