常规的基因组水平的SV变异很容易鉴定,比如syri或anchorwave都可以鉴定,我已写好对应的流程。
但是对于大规模的群体水平的SV鉴定仍然是难点,特别是规模巨大的二代重测序WGS和三代Pacbio,ONT数据。目前已有的鉴定此类SV的工具有:
MOPline 2023年发表在《Cell Reports》上
2023年发表在《NATURE METHODS》的《Facilitating genome structural variation analysis》评述了2022年发表在《NATURE METHODS》的三个基于机器学习鉴定SV的工具。
- SVDDS
GitHub - Parsoa/SVDSS: Improved structural variant discovery in accurate long reads using sample-specific strings (SFS)
SVDSS:使用来自精确长读长的样本特异性字符串在难以调用的基因组区域中发现结构变异 |自然方法 (nature.com) - Cue
GitHub - PopicLab/cue:用于SV鉴定和基因分型的深度学习框架
Cue: a deep-learning framework for structural variant discovery and genotyping | Nature Methods - SVision
githubs
SVision 论文地址
SNP/INDEL的变异鉴定
广泛使用的是GTAK,而且是各类工具里准确度最高的之一。
新开发的基于深度学习的变异鉴定工具DeepVariant,也是鉴定snp/indel准确度比较高的工具。
DeepVariant的训练模型是人类的数据,其他物种需要自己先提供已知的变异,训练模型,然后才能用于变异鉴定。
GitHub - google/deepvariant: DeepVariant is an analysis pipeline that uses a deep neural network to call genetic variants from next-generation DNA sequencing data.
DeepVariant支持二代测序数据和三代测序数据。
使用deepvariant对植物测序数据进行变异鉴定
- 下载参考基因组数据和植物基因组数据。
- 对样本 DNA 序列数据进行质量控制和预处理,包括去除接头序列、修复碱基差错等。
- 利用比对工具将样本 DNA 序列数据比对到参考基因组上,根据比对结果生成 bam 或者 cram 格式的文件。
- 使用 DeepVariant 工具进行突变检测,根据样本和参考基因组比对生成的 bam 或者 cram 格式的文件,以及参考基因组序列,进行深度学习训练,得到样本 DNA 序列数据的突变信息。生成的突变信息包括 SNP、InDel 等等。
- 将突变鉴定结果进行注释,对鉴定出的突变进行功能注释,包括基因型、基因功能、通路参与等。
- 对变异信息进行统计分析,包括变异类型、频率、分布等。