长读长组装发展
- 2012:三代组装、二代校正;耗资源,适合小基因组,如细菌,4-15%错误率
- 2013:三代组装、三代校正;仍然只适用小的
- 2014:华夏一号(中国人三代参考基因组)
- 2016:Falcon/Falcon-Unzip,三代Pacbio二倍体真核生物
- 2017:ONT UItralong
- 2018:希望组启动T2T完成图,Nextcorrect(Nextdenovo第一期),超大基因组组装问题
- 2019:PacBio HiFi reads,>20kb且>99.9%准确度,同时可做组装与SNP、Indel
- 2020:基于HiFi的二倍体组装hifiasm;中国人SV与单体型标准
- 2021:非洲肺鱼40Gb和澳洲肺鱼37Gb两个超大基因组组装;拟南芥T2T完成图
- 2022:苏铁基因组10.5Gb
人类基因组T2T联盟
- 2019:T2T联盟成立
- 2020:X染色体
- 2021:8号染色体
- 2022:全基因组,表观、端粒、着丝粒等以及很多方法学研究
- 人类泛基因组联盟HPRC新目标:基于350个体T2T基因组
CHM13-T2T
组装情况:3.05Gb,63494 gene(19969编码基因),53.94% 重复
-
组装策略:
- 30x PacBio HiFi搭骨架:Hicanu+Minisam
- ONT补gap
- HiFi based graph resolution,手动解图
- ONT-based tangle resolution,手动解图
- 结合其他技术ddPCR, Strand-seq, Hi-C, HSat3 array
技术突破:着丝粒拼接、rDNA阵列(45S)、染色体短臂、节段重复、串联重复、完整单体型
-
局限性:
- 葡萄胎细胞样本,单倍体基因组,不是绝对的单倍体
- 无Y染色体
- 真实的二倍体、异源多倍体、同源多倍体需要不同的算法
建议:不要轻易号称T2T,审稿意见多。建议谦虚点near-complete
基因组组装的最后挑战
测序发展维度:一代——三代
BAC-long纳米孔测序(>150kb)
HiFi和ONT测序错误率的意义不同
-
最新基因组组装的4个不同标准,不同的策略
- 白金基因组:50-60x HiFi + Hi-C (Hifiasm,HiCanu)
- 近完成图:60x HiFi + 60x UL(100kb) + Hi-C +Bionano (Hifiasm,HiCanu, NextDenovo)
- Pre-T2T:60x HiFi + 100x BAClong(150kb) + Hi-C +Bionano (NextDenovo2/NextPolish2)
- T2T:100x HiFi + 200x BAClong(150kb) + Hi-C +Bionano (NextDenovo2/NextPolish2)
T2T不等于gapless:一个contig一条染色体;no misassembly;Q50碱基质量不够;单体型未分开
-
T2T四个阶段:现已完成接近10Gb的基因组
单倍体已完成
二倍体进行中
异源多倍体困难
同源多倍体更困难
CGM第二百三十五期 汪德鹏 基因组组装的最后挑战——基因组完成图(T2T):
https://www.bilibili.com/video/BV1DY411j7pG?spm_id_from=333.880.my_history.page.click