三代测序数据组装

三代数据组装

Pacbio CLR & Nanopore: 50X~100X,最低不能低于30X
Pacbio HiFi : 25X 以上

三代读长的优势

推荐软件

canu

canu 是一款持续更新的三代拼接软件,同时支持pacbio CLR 、HiFi 和nanopore 测序数据做输入。该软件非常消耗计算资源,但结果比较准确。
下载地址: https://github.com/marbl/canu/releases
软件使用说明:https://canu.readthedocs.io/en/latest/index.html

参考脚本

canu \
-pacbio  ./pacbio.fastq.gz \ #测序数据
-p test \ #指定输出文件前缀
-d ./output \ #指定输出目录
genomeSize=4.6m \ #预期的基因组大小
useGrid=false \ #是否使用集群
maxMemory=30G \ # 设置内存大小
maxThreads=20 #设置线程数
# nanopore数据设置: -nanopore ont.fq 
# HiFi数据设置: -pacbio-hifi hifi.fq
# corOutCoverage 默认为40
# corMinCoverage 默认为4
  • 结果文件



    test.contigs.fasta ## 最终拼接结果
    test.correctedReads.fasta.gz ## 纠错后的reads

WTDBG2

wtdbg2 也同时支持pacbio 和nanopore 测序数据,运行很快,消耗资源也相对较低,适合大基因组拼接。
下载地址:https://github.com/ruanjue/wtdbg2/releases

参考脚本

## 组装
wtdbg2 \
-t 4 \#指定线程数
-x rs \#输入reads的类型
-g 4.5M \#预期基因组大小
-L 1000 \#reads小于1000丢弃
-l 1000 \#overlap的长度
-e 2  \#区域覆盖次数超过2认为可信度高
-i ./pacbio.fastq.gz \ #指定的输入文件格式
-o test #输出文件前缀

## 得到一致性序列
###  wtdbg-cns
wtdbg-cns \
-t 6 \
-i test.ctg.lay.gz \ #上一步生成的文件
-f \#覆盖之前的结果
-o test.wtdbg-cns.fa


### wtpoa-cns
wtpoa-cns \
-t 6 \
-i test.ctg.lay.gz \
-f \
-o test.wtpoa-cns.fa
  • 结果文件



    test.wtdbg-cns.fa #拼接结果

flye

flye 软件支持CLR、HiFi 和nanopore 数据做输入,也是一款常用的三代数据拼接软件。
下载地址:https://github.com/fenderglass/Flye

参考脚本

flye \
--pacbio-raw  ./pacbio.fastq.gz \
--out-dir  flye_out \
--genome-size 4.6m \
--threads 6
  • 结果文件



    assembly.fasta #拼接结果

欢迎关注bioinfor 生信云!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容