Nature | ENOCDE3 系列 小鼠胎儿发育中的时空DNA甲基化动态解析
日期:2020年7月29日
杂志:Nature
杂志影响因子:42.778
原文标题:Spatiotemporal DNA methylome dynamics of the developing mouse fetus
原文链接:https://www.nature.com/articles/s41586-020-2119-x
来源:The ENCODE Project Consortium, ENCODE3
摘要
在《自然》上发表的ENCODE 3,概述了在人和小鼠细胞系和组织中进行的各种测定,并描述了人和小鼠候选顺式调控元件(cCRE)列表。在这里,作为小鼠DNA元素百科全书(ENCODE)项目的一部分,从胚胎发生到成年的9个发育阶段,对来自12个小鼠组织或器官的168个甲基化基因组进行了分析。 通过比较来自不同发育阶段的不同组织或器官的甲基化组,确定了1,808,810个基因组区域,这些区域显示了CG甲基化差异。
这些DNA元件在胎儿发育过程中会主要丢失CG甲基化,而这种趋势在出生后就逆转了。 在胎儿发育的后期,非CG甲基化在关键的发育转录因子基因体内积累,这与其转录抑制相吻合。 全基因组DNA甲基化,组蛋白修饰和染色质可及性数据的整合使其能够预测461,141个假定的发育组织特异性增强子,其人类直向同源物富集了与疾病相关的遗传变异。 这些时空表观基因组图谱为研究组织或器官进程中的基因调控提供了资源,也是研究与人类发育障碍有关的调控元件的起点。
内容
哺乳动物的胚胎发育涉及基因的时空调控。 该过程由与调节性DNA元件(主要是增强子和启动子)结合的转录因子(TF)的复杂编排和表观遗传修饰介导。 具体来说,TFs访问调节性DNA的能力与组蛋白和DNA的共价修饰密切相关。胞嘧啶DNA甲基化是一种表观遗传修饰,对基因调节至关重要。 这种碱基修饰主要发生在哺乳动物基因组中的胞嘧啶和鸟嘌呤(mCG)处,并且在不同组织和细胞类型中的调节元件处动态发生。
mCG可以直接影响多种TF的DNA结合亲和力,并且在启动子处靶向添加或去除mCG分别与基因转录的减少或增加相关。 非CG甲基化(mCH;其中H表示A,C或T)也以明显的水平存在于胚胎干细胞,卵母细胞,心脏和骨骼肌中,并且在哺乳动物脑中含量很高。 实际上,人类神经元中的mCH水平超过了mCG。 尽管尚不清楚其确切功能,但mCH直接影响MeCP2的DNA结合,MeCP2是甲基化结合蛋白,突变导致Rett综合征。
在哺乳动物发育过程中,胞嘧啶DNA甲基化受到积极调节。然而,与子宫壁着床前的胚胎发生相比,后期缺乏表观基因组数据,然而在此期间主要器官系统的解剖特征出现,人类先天缺陷变得明显。为了填补这一知识空白,作为小鼠ENCODE项目的一部分,使用小鼠胚胎生成了从胚胎第10.5天(E10.5)到出生(出生后第0天,P0)的9个发育阶段的十二种组织类型的表观基因组和转录组图。对于某些组织,到成年。进行了全基因组亚硫酸氢盐测序(WGBS),以生成基本分辨率的甲基化组。在其他以ENCODE形式发表的论文中,使用染色质免疫沉淀测序(ChIP – seq),使用测序(ATAC – seq)23.25和RNA测序(RNA-seq)分析转座酶可及的染色质数据,对相同的组织样品进行了分析。 )分别识别组蛋白修饰,染色质可及性和基因表达情况。
这些数据集使研究胎儿组织发育中基因调控的动力学成为可能,从而扩大了小鼠ENCODE前一阶段的范围,该阶段的重点是成年小鼠组织中的基因调控。这些综合数据集可从http://encodeproject.org和http://neomorph.salk.edu/ENCODE_mouse_fetal_development.html获得。
本文的重点包括:
鉴定了显示胎儿组织中发育和组织特异性mCG变化的1,808,810个基因组区域,覆盖了小鼠基因组的22.5%。
大多数(91.5%)的mCG变异区域与启动子,CpG岛或CpG island shores没有重叠。
观察到的主要甲基化模式是胎儿发展过程中胎儿出生前CG脱甲基的连续丧失,以及出生后主要在远端调节元件上的CG再甲基化。
在胎儿发育过程中,非CG甲基化积聚在编码发育TF的基因体中,这与这些基因的未来抑制有关。我们使用了来自小鼠ENCODE的DNA甲基化,组蛋白修饰和染色质可及性数据的综合分析,以预测所有胎儿组织中461,141个推定的增强子。
推定的胎儿增强子可以准确地概括来自匹配发育阶段的匹配组织类型。预测的调控元件显示出时空增强子样活化的染色质,其与组织发育必不可少的基因的动态表达模式相关。胎儿推定增强剂的人类直系同源物富含作为多种人类疾病危险因素的遗传变异。
<center> 发育中的胎儿组织甲基化组 </center>
为了评估发育中的小鼠胚胎中胞嘧啶DNA甲基化的情况,这里生成了168个甲基化组,覆盖了源自3个原始胚层的大多数主要器官系统和组织类型(图1a)。为了更好地了解胎儿发育过程中的表观基因组情况,还将来自同一组织和器官样本的组蛋白修饰(ChIP – seq),染色质可及性(ATAC – seq)和基因表达(RNA-seq)数据纳入了分析。所有胎儿组织的基因组都被大量CG甲基化,总体mCG水平为70-82%(肝脏除外,为60-74%;图1b)。尽管胎儿组织中不同阶段的整体mCG水平相似,但作者们确定了1,808,810个CG甲基化差异区域(CG-DMR;组织类型和发育阶段之间甲基化不同的基因组区域),平均长339 bp, 覆盖小鼠基因组的22.5%(614 Mb)。这种全面的胎儿组织CG-DMR注释捕获了所有先前报告的成年小鼠组织CG-DMR的约96%(n = 272,858),并识别了超过150万个新区域(图1c)。值得注意的是,有76%的CG-DMR距离邻域转录起始位点(TSS)超过10 kb。只有8.5%(n = 153,019)的CG-DMR与启动子,CpG岛(CGI)或CGI shores重叠(图1d,扩展数据图2c-e)。通过整合这些表观基因组数据集,计算出了468,141个可能是胎儿增强子的CG-DMR(胎儿增强子相关的CG-DMR或feDMR)。
<p style="text-align:center;color:#1e817e;font-size:0.8em;font-weight: bold;">
图1
内容</p>
<center> 链接动态mCG和染色质状态 </center>
研究了mCG动态与预测的增强子活性(由H3K27ac丰度估算)之间的关联。
尽管mCG的消耗不一定与H3K27ac富集有关(例如,簇3、5和6),但高mCG表示H3K27ac较低(图2e,f)。 只有2–9%的高度甲基化CG-DMR(mCG水平> 0.6)显示高H3K27ac富集度(> 6),而25–28%的CG-DMR甲基化水平较低(mCG水平<0.2)富集H3K27ac( 图2f)。 这些观察结果表明,胎儿发育过程中胞嘧啶甲基化的降低可能先于并通过增加TF结合和/或改变组蛋白修饰而促进了增强子活性。
<p style="text-align:center;color:#1e817e;font-size:0.8em;font-weight: bold;">
图2
组织特异性CG-DMR在胚胎发生过程中经历连续的去甲基化,并在出生后进行再甲基化</p>
<center>mCH结构域预测基因沉默 </center>
在哺乳动物基因组中发现的一种不太容易理解的胞嘧啶DNA甲基化形式是mCH。 在胎儿发育过程中,mCH在几乎所有组织和器官中均以可检测到积累(图3a)。 值得注意的是,在脑组织中,mCH积累的时间与发育成熟相关。
<p style="text-align:center;color:#1e817e;font-size:0.8em;font-weight: bold;">
图3
mCH积累预测基因表达减少</p>
<center> 基于多组学数据的增强子注释 </center>
为了进一步研究发育中的胎儿组织中的动态转录调控,通过整合mCG,组蛋白修饰和染色质可及性谱,使用REPTILE算法预测了可能与增强子活性相关的胎儿CG-DMR。 确定了468,141个候选feDMR。feDMR显示出类似增强子的染色质特征,包括开放的染色质,mCG和H3K27me3的耗竭以及H3K4me1和H3K27ac的富集(图4a)。在鉴定出的feDMR中,以前没有在成年小鼠组织中报道过的有99,582(21.3%),染色质状态模型未捕获到的有58,307(12.4%)(图4b)。
<p style="text-align:center;color:#1e817e;font-size:0.8em;font-weight: bold;">
图4
Enhancer annotation of developing mouse tissues</p>
<center> 关联mCG,增强子和基因表达 </center>
最后,研究了mCG动态与基因在不同生物学过程或途径中的表达之间的关系。 使用加权相关网络分析(WGCNA),鉴定了33个共表达的基因簇(共表达模块,CEM),并计算了“ eigengenes”以总结模块内基因的表达谱。共有相似表达谱的基因更有可能受到共同机制的调控和/或参与同一途径。在给定发育阶段的所有组织样本中,feDMR的mCG与本征基因表达呈负相关,而增强子评分与本征基因表达呈正相关(图5d,e)。这些结果表明,feDMRs可能同时驱动组织特异性和暂时性基因表达。时空小鼠增强子活性注释(feDMRs)和人与小鼠之间调节元件的进化保守程度使得分析疾病或性状相关基因座,查明相关组织和发育时间点成为可能 )在小鼠的ENCODE数据。 为此,应用分层连锁不平衡(LD)评分回归来划分人类feDMRs直系同源区域中27个性状的遗传性。
鉴于当前获取人类胎儿组织的挑战,该结果表明,可能有可能将人类遗传数据与来自模型生物的胎儿时空表观基因组数据进行整合,以预测各种人类发育疾病的相关组织或器官类型。
<p style="text-align:center;color:#1e817e;font-size:0.8em;font-weight: bold;">
图5
mCG,基因表达与疾病相关的SNP之间的关联</p>
总结
结果强调了该数据集的强大功能,可用于分析子宫内发育过程中胎儿组织中的调控元件动态。 这些时空表观基因组数据集为回答有关哺乳动物组织和器官发育过程中基因调控以及人类发育疾病的可能起源的基本问题提供了宝贵的资源。