1.数据准备:HIFI数据(bam转换成fa或fq均可)和HIC数据
2.软件准备
Hifasm、seqkit(均可以通过conda安装)
3.运行代码拆分
对于二倍体,结合HiC数据拆单倍体成功率还是挺高的,相对也比较准确,建议首先使用该方法尝试组装:目前组装的还是contig水平还未挂载至染色体水平
bsub-Jhifiasm-n20-Rspan[hosts=1]-o%J.out-e%J.err-qsmp"hifiasm-oloach.asm.hic-t10--h1hic_R1.fastq.gz--h2hic_R2.fastq.gzhifi_reads.fq"
-o输出单倍型的名称,自己决定;我用的loach.asm.hic意思是hifiasm使用hic拆分的泥鳅单倍型--h1和--h2分别是HiC数据的双端
结果中主要查看loach.asm.hic.hap1.p_ctg.gfa和loach.asm.hic.hap2.p_ctg.gfa两个文件
分析单倍型hap1和hap2的大小是否符合预期;本人拆分了二倍体的泥鳅,大鳞副泥鳅和两种螺蛳的单倍型,效果不错。但是同源多倍体的效果不是很理想;异源多倍体还未尝试。。。
4.转换gfa格式为fa格式
awk'/^S/{print">"$2;print$3}'hap1.p_ctg.gfa > hap1.p_ctg.fa
5.seqkit查看初次组装的单倍型基因组基本信息
bsub-Jhifiasm-n20-Rspan[hosts=1]-o%J.out-e%J.err-qsmp"seqkitstats-aloach.asm.p_ctg.fa"
查看num_seqs,N50即可
至此可以拆分出初步的单倍型基因组;后续将contig挂载至染色体上。。。