文献
2021
NatureCommunications
Genome-wide detection of cytosine methylations in plant from Nanopore data using deep learning
课题背景
(1)胞嘧啶甲基化是最主要的DNA甲基化之一,参与植物的基因表达调控、转座子沉默、果实发育以及胁迫响应等生物学过程。在植物中,5mC可以发生在CG、CHG和CHH三种序列环境。三者在调控植物生物学过程各自发挥了不同的作用,例如,CG甲基化通常在基因区域占主导,CHG甲基化比CG甲基化在沉默转座子过程发挥更大作用,CHH甲基化对于沉默CG和CHG甲基化缺失的转座子至关重要。
(2)WGBS是检测胞嘧啶甲基化最常用的手段,但是由于读长较短,不能很好的检测重复序列的甲基化水平。此外,重亚硫酸盐处理过程种的不完全转化和DNA降解也会干扰甲基化的检测。近些年,三代测序技术Pacbio SMRT和Nanopore测序的快速发展为检测胞嘧啶甲基化提供了新的思路。这些技术可以直接对DNA测序,无需进行转化或PCR扩增。甲基化修饰可以影响Nanopore测序中的电流信号,并改变Pacbio SMRT测序中的聚合酶动力学。因此,无需额外的实验技术就可直接从Nanopore和Pacbio SMRT测序中检测DNA甲基化。由于Nanopore和Pacbio测序的超长读长,使得检测重复序列的DNA甲基化成为可能。
(3)针对Nanopore和Pacbio SMRT测序检测DNA甲基化已经开发了许多方法。例如Tse等人开发了一种基于卷积神经网络的方法,使用Pacbio的CCS reads检测人类全基因组的胞嘧啶甲基化,结果显示与WGBS结果高度一致。
基于Nanopore检测甲基化的方法可以分成三类:
基于统计:Tombo软件可以通过对比原生DNA reads和无甲基化DNA reads之间的电流信号进行统计测试来推断DNA甲基化。Tombo可以检测所有类型的DNA甲基化,而无需先验知识来了解特定甲基化类型的电流信号模式。然而,Tombo在单碱基分辨率的识别仍不够可靠,通常存在较高的假阳性。
基于特定模型:如nanopolish、signalAlign、DeepMod和DeepSignal,利用隐马尔可夫模型或深度神经网络来预测特定位点的修饰状态,即修饰或未修饰,这些方法针对特定的序列环境中,如CpG或CCWGG(其中W= A或T),在5mC检测上达到了高准确性。
基于碱基识别:如Megalodon,直接在碱基识别过程中使用扩展的字母表来检测修饰的碱基。Megalodon可以检测各种甲基化类型。然而,Megalodon在CHH和CHG甲基化检测方面的能力缺乏评估。
发表该文章时还没有一种方法可以使用三代测序数据以可接受的准确性在所有三种序列环境中对全基因组的5mC进行检测。
亮点
作者利用深度学习开发了DeepSingal-Plant软件,可以从Nanopore数据中检测三种类型的DNA甲基化。
由于在植物中,具有100%甲基化水平(即完全甲基化)的胞嘧啶通常比具有零甲基化水平(即完全未甲基化)的胞嘧啶要少得多,特别是对于CHH而言,从Nanopore数据中收集足够的样本进行训练非常困难,这导致了一个不平衡的训练数据集。因此,作者开发了一种样本选择策略,对训练样本进行平衡和去噪,这可以显著提高训练模型的性能,特别是在CHH和CHG甲基化检测方面。作者在DeepSignal-plant中训练了一个深度学习模型,用于检测CG、CHG和CHH序列的5mC位点。在拟南芥和水稻中测试DeepSignal-plant表现出与WGBS高度一致的结果。
此外,作者还使用了黑芥(B. nigra)的Nanopore数据对DeepSignal-plant进行了测试,同样在CG-CHG-CHH的检测中与WGBS表现出高度的相关性。此外,由于Nanopore测序没有扩增偏差并且读长远远超过WGBS,DeepSignal-plant可以在植物中检测更多的5mC位点,特别是在高度重复的区域。
结论1 拟南芥和水稻的DNA甲基化图谱
Fig S3
作者对拟南芥和水稻进行了WGBS和高深度的Nanopore测序,并评估了拟南芥和水稻中高置信度的0甲基化和甲基化胞嘧啶的数量,用这些数据训练模型。
在拟南芥和水稻中,高置信度的完全甲基化胞嘧啶的数量远远少于高置信度的完全非甲基化胞嘧啶的数量,特别是在CHG和CHH类型中。在拟南芥中,CG、CHG和CHH位点的比例分别为<1:50、<1:1,000和<1:22,000,而在水稻中,CG、CHG和CHH位点的比例分别为~1:2、1:15和1:2,000(Fig S3)。高置信度的完全未甲基化和甲基化胞嘧啶数量的不平衡,尤其是在非CG类型中,这给从Nanopore测序中选择适当的样本来训练5mC检测模型带来了挑战。
结论2 DeepSingal-plant的算法与训练过程
Fig 1a
DeepSignal-plant利用bidirectional recurrent neural network(BRNN)和long short-term memory(LSTM)单元,从Nanopore测序的信号和序列特征中检测DNA 5mC甲基化(Fig 1a)。
首先,将Nanopore测序的原始信号映射到核苷酸序列上。然后,对于每个目标的5mC位点,DeepSignal-plant构建了四个k长度的特征,即每个base的基本信息、平均值、标准差和信号值,这些特征是以目标位点为中心的k-mer(默认k=13)的一部分作为序列特征。DeepSignal-plant还提取了每个base在k-mer中的m长度(默认m=16)信号作为信号特征。通过使用BRNN来处理信号特征和序列特征。
Fig S4
作者选择WGBS结果高置信度的甲基化和未甲基化胞嘧啶作为训练样本。为了包括更多高置信度的甲基化位点,作者选择那些甲基化水平至少为0.9且至少有五个映射读数的胞嘧啶。首先,使用Guppy将Nanopore原始读数转换为一系列碱基的序列,然后使用Tombo将原始电信号值映射到基因组参考序列中连续的碱基上(Fig S4a)。
由于所选的甲基化和未甲基化胞嘧啶的k-mer不同,特别是对于CHH类型。因此需要平衡甲基化和未甲基化胞嘧啶中的k-mer,以避免模型使用的k-mer的差异来影响5mC甲基化状态。此外,对于相同的k-mer,甲基化和未甲基化胞嘧啶的读数也不同。作者进一步平衡甲基化和未甲基化胞嘧啶的数量,以训练一个性能更高的模型。
Fig 1b-d
由于作者只选择了甲基化水平高于0.9的胞嘧啶,这可能会在训练数据中引入虚假的甲基化胞嘧啶。为了解决这个问题,作者开发了一种迭代去噪方法来去除虚假的甲基化样本(Fig 1b)。在每次迭代中,都对训练数据集进行双向预测,删除了DeepSignal-plant预测为非甲基化的甲基化样本。然后,使用剩余的甲基化样本和未甲基化样本进行下一轮训练。去噪方法将在10次迭代之后或者被预测为非甲基化的甲基化样本少于1%时停止。
去噪步骤中被删除的CHH k-mer样本的碱基电信号与非甲基化样本的电信号相似(Fig 1c),这表明去噪能够去除虚假阳性样本。去噪可以确保甲基化样本的可靠性。
结论3 DeepSingal-plant的平衡与去噪方法的评价
Fig S5
作者通过模拟数据评估了去噪方法。通过生成不同错误标记率(即假阳性样本与总阳性样本的比率0-20%)的训练数据集,使用作者的去噪方法进行处理,结果表明超过93%的错误信号被去除(Fig S5)。
然后,作者WGBS结果为基准,通过计算WGBS和Nanopore测序得到的每个位点的甲基化水平之间的Pearson相关性来评估DeepSignal-plant可靠性。作者随机选择了500×的拟南芥数据进行训练,并从其余大约100×的reads中随机选择了大约20×的reads进行测试。与随机选择的样本相比,平衡和去噪训练样本可以显著提高5mC检测的性能,特别是对于CHH(Fig 1d)。在平衡和去噪训练样本后,对于CHG甲基化,Nanopore数据与WGBS的相关性从0.8464增加到0.9122;对于CHH甲基化,从0.3696增加到0.7840。
这些结果表明,平衡和去噪可以显著提高CHH和CHG位点DNA甲基化的检测性能。然而,在去噪训练样本后,CG位点的检测的性能没有得到改善。这可能是因为对于CG位点的检测本身就很可靠,可以在不去噪的情况下用于训练模型。
结论4 使用拟南芥和水稻的Nanopore数据对DeepSingal-plant进行评估
Fig S6
除了为CG-CHG-CHH单独训练一个模型外,作者还将三种类型的训练样本组合起来,以训练一个用于整体5mC检测的模型。
对于三种甲基化,整体模型均优于单独的模型。这一结果表明,这三种模型的信息可以提高彼此的甲基化预测。因此,在下游的评估和分析中使用了整体的5mC模型。
Fig S7
作者使用DeepSignal-plant对拟南芥数据进行了跨染色体验证,基于Chr1和Chr4的reads进行训练,并在Chr5的reads上进行测试(Fig S7a)。结果表明,DeepSignal-plant在测试reads上表现出与WGBS结果高度的Pearson相关性(Fig S7b)。
Fig S8
然后,作者对DeepSignal-plant进行了跨物种验证。与上述实验类似,对于拟南芥,分别选择了大约500×和大约20倍×Nanopore读取进行训练和测试。对于水稻,随机选择了第一个生物重复的115×Nanopore数据,以及剩余100×的数据中的20成进行测试。
首先,作者独立使用拟南芥和水稻Nanopore数据训练DeepSignal-plant模型,并在拟南芥和水稻Nanopore数据上测试这些模型。
然后,作者使用拟南芥和水稻合并后的数据来训练DeepSignal-plant模型。如Fig S8所示,使用合并的reads训练的模型表现出了整体最佳性能。
Fig S9
对于CG和CHG类型,无论是使用单物种还是混合物种的reads训练,都表现出与WGBS结果的高度相关。对于CHH类型,使用拟南芥reads训练的模型在水稻的测试数据上表现不佳。这可能是因为拟南芥中CHH的高可信甲基化位点和k-mer数量相对较少,不如水稻多。与此同时,仅使用水稻reads训练的模型在CHH方面与使用合并reads训练的模型表现相似。
作者进一步随机选择了拟南芥和水稻的大约20×的数据,进行了五次测试,并使用使用合并reads训练的模型来检测甲基化水平。在五次重复的测试中,得到了与WGBS高度一致的相关性。此外,五次测试的结果也相互高度相关(Fig S9),这表明作者给出的模型预测是高度可信的。
结论5 DeepSingal-plant与其他软件的对比
Fig 2
作者将DeepSignal-plant与Megalodon进行了比较。Megalodon也可以检测CG-CHG-CHH三种甲基化水平。为了公平比较,作者重新使用相同的训练数据集对Megalodon进行了训练,用于与DeepSignal-plant进行比较。
我们使用了拟南芥、水稻和黑芥的20×Nanopore数据进行评估。结果表明,DeepSignal-plant在拟南芥和水稻中的5mC检测方面表现优于原始和重新训练过的Megalodon,特别是在CHH类型(Fig 2)。在黑芥中,DeepSignal-plant在CG和CHH甲基化检测方面均优于原始和重新训练过的Megalodon。对于黑芥中的CHG检测,DeepSignal-plant与重新训练过的Megalodon具有类似的结果,但两者都明显优于原始Megalodon(Fig 2)。
Fig S13
为了进一步评估DeepSignal-plant,作者根据WGBS检测到的甲基化水平,将胞嘧啶分为三个区间:低甲基化(0.0–0.3)、中甲基化(0.3–0.7)和高甲基化(0.7–1.0)。然后,比较了DeepSignal-plant和重新训练的Megalodon的检测效果。对于三种类型的DNA甲基化,DeepSignal-plant和重新训练的Megalodon对于预测低甲基化水平的胞嘧啶与WGBS具有高度一致性。重新训练的Megalodon倾向于低估CHH类型的中、高甲基化水平,而DeepSignal-plant的结果类似于WGBS(Fig S13)。
结论6 利用Nanopore测序检测到比WGBS更多的甲基化位点
Fig 3a-b
作者对三种类型的甲基化进行了评估。使用40×的Nanopore数据,基于DeepSignal-plant可以检测到比WGBS更多的5mC位点,这有助于对以前不能检测到的基因组区域进行检测,进而使更多的基因组区域得以完全概况(Fig 3a-b)。
Fig 3c-d
DeepSignal-plant在着丝粒及端粒区域检测到了大量的胞嘧啶,这些区域由许多重复序列组成(Fig 3c-d)。
此外,有许多新检测到的胞嘧啶位于拟南芥的、水稻的蛋白编码基因中。具体而言,DeepSignal-plant已经新检测到了341个拟南芥基因以及227个水稻基因的甲基化状态。
结论7 repeat pairs中差异甲基化的胞嘧啶
Fig 4a-b
作者定义某物种基因组内,长度>=100且相似性>=99%的两个区域视为一个repeat pair. 基于Mumer,作者检测了拟南芥和水稻的repeat pairs,并计算了每个repeat pairs中不同甲基化的胞嘧啶数目。如果一个repeat pair之间有超过10%的胞嘧啶存在甲基化差异,则将该repeat pair定义为差异甲基化的。作者发现,拟南芥和水稻中约有9%和6%的repeat pair存在差异甲基化(Fig 4a-b)。
Fig 4c-d
此外,作者发现repeat pairs中不同类型的DNA甲基化(CG-CHG-CHH)具有不同的差异趋势(Fig 4c-d)。如在拟南芥的repeat pairs中,CG位点更有可能发生差异甲基化,而在水稻中,CHG位点更有可能发生差异甲基化。与WGBS相比,DeepSignal-plant识别到更多差异甲基化的repeat pairs
Fig 4e
Fig 4f-g
拟南芥中有几个长度超过1000的repeat pairs,水稻中有超过10,000个长度超过1000的repeat pairs,这些超长repeat pairs是差异甲基化的(Fig 4f-g)。不同生物学重复之间表现出明显的一致性,这意味着不同甲基化的repeat pairs在物种中是稳定的(Fig 4e)。
本文使用 文章同步助手 同步