《nature 2015甲基化文章》人体表观基因组图谱揭示非规范DNA甲基化变异

人体表观基因组图谱揭示非规范DNA甲基化变异。

  了解人类组织的多样性是疾病的基础,需要将遗传信息(在大多数个体细胞中是相同的)与可能具有组织特异性作用的表观遗传机制联系起来。人类组织中DNA甲基化的调查已经建立了一个复杂的景观,包括组织特异性和不变的甲基化模式1,2。在这里,我们报道了高覆盖率的甲基组,在主要人类器官系统的所有情况下,与匹配的转录组和基因组序列整合,对胞嘧啶甲基化进行分类。通过将这些不同的数据类型与每个个体的阶段性基因组3相结合,我们确定了几乎所有人类组织中广泛存在的组织特异性差异CG甲基化(MCG)、部分甲基化结构域、等位基因特异性甲基化和转录,以及非CG甲基化(MCH)的意外存在。MCH与组织特异性功能相关,利用该标记,我们对在特定组织中逃避X染色体失活的基因进行了新的预测。 总体而言,几种基因组环境中的DNA甲基化在人类组织中存在显著差异。

  为了更好地理解人类组织中DNA甲基化的变异性,我们获得了来自4个个体的18种组织类型的死后样本,(5个单份样本、8个重复样本和5个三份样本。图1A,补充方法和补充表1)并进行深度转录组分析(36个信使-RNA-seq样品;每个样本120–475亿个读数),碱基分辨率甲基组(36个甲基C-SEQ4样本;每个样本的基因组覆盖率为30–80X)和基因组测序(4个全基因组序列;)每个样本的基因组覆盖率为20–45X。我们将最初的分析集中在CG背景下的胞嘧啶上,并使用先前发表的方法2来鉴定差异甲基化(补充方法)。我们发现,在26,474,560个位点中,15.4%的(4,073,896(在这些实验中)CG位点测试)是强差异甲基化的(最小甲基化差异$0.3;扩展数据图1)与之前的研究类似2。 为了鉴定差异甲基化区域(DMR),我们将500个碱基对(BP)内的位点组合在一起,发现了1,198,132个DMR。即使有这些严格的标准,我们确定的719,837(60.1%)的DMR是新的2,5。

  正如预期的那样,DMRS的低甲基化与组织特异性功能相关2,6。例如,主动脉中强烈低甲基化的DMR与MYH10周围的主动脉特异性超级增强子7重叠,MYH10是参与血管功能的基因8(图1B)。为了进一步验证我们的DMR,我们对它们的加权甲基化水平进行了分级聚类9(补充方法,图图1C和扩展数据1b,C)。属于同一器官系统的组织聚集在一起(例如,心脏和肌肉组织)。我们将这些结果与转录组中鉴定的差异表达基因的聚类进行比较,并发现器官系统(补充方法的类似分离。1D和扩展数据图1D)。此外,对最低甲基化的组织特异性DMR的注释Tool10分析的基因组区域富集揭示了许多组织特异性功能(扩展数据。 1e,f,补充方法和补充表2-3)。

  为了检测甲基化和转录之间的关系,我们将DMRS的甲基化水平与最接近基因的表达相关联(图。2A,扩展数据图2a、B和补充方法)。正如预期的那样,DMR中的甲基化与表达呈负相关,并且这种相关性在靠近转录起始位点时变得更强。最强的负相关性不是在基因启动子中,而是在启动子下游8kb()(基因内(0.3kb至8kb)与启动子区和上游区UNK622kb至0.3kb UNK7 Spearman相关系数差值的中位数为20.07;曼恩-惠特尼第54.23 10217页;图)。该分析表明,在我们检测的组织中,转录与基因内DMR密切相关,扩展了在癌症甲基组中的类似观察结果11。这些基因内甲基化差异先前被认为是标记基因内CG岛(CGIs)或CGI海岸5,12–14。 然而,只有一小部分基因内DMR具有这些特征,(19%;扩展数据图2C)。此外,预测的增强子和推定的启动子分别仅占基因内DMR的23%和22%,这表明剩余的DMR(我们称之为未定义的基因内DMR(UIDMRS))代表了一组未识别的功能元件(35%;扩展数据图2C和补充方法)。这些UIDMRS的甲基化水平与含有它们的基因的表达密切相关。为了检测它们的调节潜力,我们绘制了它们的组蛋白修饰谱(组蛋白3 Lys 4甲基化(H3K4me1)、H3K4me3、H3K27ac、H2K9me3、H3k27me3和H3k36me3),它们来自相同的组织样本15,并发现了五类:弱增强子、启动子近端、转录的、平衡的增强子和未标记的(扩展数据图2D–H、3A、B和补充方法)。具有强、活性组蛋白修饰的类别与表达(弱增强子和近端启动子UIDMRS中度负相关;斯皮尔曼相关系数中位数为20。 )分别为32和20.16;然而,具有较低活性组蛋白修饰的UIDMRS表现出弱的负相关性(转录和平衡增强子UIDMRS)。值得注意的是,启动子近端UIDMRS的表达和甲基化之间的相关性与与强启动子重叠的基因内DMRS的相关性一样强(扩展数据图4和补充方法),表明基因内启动子和启动子近端序列比那些富集增强子样染色质修饰的序列更能预测甲基化的变化。

  相反,未标记的UIDMRS显示与表达的弱正相关(扩展数据图4D)。值得注意的是,我们发现许多在组织特异性UIDMRS中富集的基序存在于组织特异性增强子中(例如,HNF4A(参考文献16)在肝脏特异性UIDMRS中),表明这些DMR是组织特异性调节元件(补充方法和补充表4和5)。最近,在小鼠6中发现了低甲基化区域,该区域在成人组织中不活跃,但在胎儿发育过程中活跃。 我们检查了匹配的胎儿组织17中未标记的UIDMRS的DNase I超敏反应谱,并发现超敏反应的富集(扩展数据图5和补充表6),这表明在发育早期,无活性DMR的低甲基化可以维持在活跃区域。

  接下来,我们研究了甲基化变异是否与个体间的遗传变异有关,这在健康的原代组织或使用全基因组亚硫酸氢盐测序18,19中尚未得到广泛表征。为了鉴定个体特异性DMR,我们使用了一种对这些差异敏感的方法20,与上述方法(补充方法)不同。我们首先将我们的分析限制在三个样本中,并通过组织特异性甲基化异常值评分对DMR进行排序,当一个个体的甲基化水平与其他两个个体的甲基化水平不同时,该评分最大。我们发现,在所有组织中前2,500个甲基化异常评分排序的DMR中,与甲基化变化相关的单核苷酸多态性(SNPs)富集了1.6倍(补充方法)。 然后,我们使用警句Pipeline 21从这些DMR中的DNA基序预测组织特异性甲基化,并发现它们高度预测(平均曲线下面积(AUC)0.79;补充方法)。这些完整的模型平均使用了156个图案;然而,每个组织仅使用20个核心转录因子基序获得了0.74的平均AUC。

  然后,我们通过对组织特异性基序的集合进行聚类(补充方法)来识别相应基序的组。基序组通过其组织低甲基化和高甲基化特异性进行聚类(图2B)。95个基序中有42个基序仅具有低甲基化特异性;例如,参与心脏发育22的MEIS在左心室、右心房和右心室中低甲基化。我们还鉴定了34个基序,这些基序在一些组织中的低甲基化DMR和其他一些组织中的高甲基化DMR中富集。这些基序中的三个与转录因子家族(FOX,HOX和GATA)匹配,并且在低甲基化区域中最显著地富集,这表明它们主要参与调节低甲基化。

  除培养的人胎儿成纤维细胞系(IMR90)4、癌细胞23、24和胎盘(PLA)25外,哺乳动物细胞具有高基因组水平的MCG。令人惊讶的是,胰腺甲基化(PA-2和PA-3)的大区域显著低甲基化(扩展数据图。我们开发了一种鉴定全基因组部分甲基化结构域(PMD)的方法(补充表7-8和补充方法),并发现胰腺PMD小于IMR90和PLA(扩展数据图6B),并覆盖基因组(的较小部分。图2C)。所有的PMD对都明显重叠,表明这些区域在很大程度上是共享的,(40%重叠;P<0.001;扩展数据图6C)。

具有PMD的样品中的基因被转录抑制25,26,但这些区域在我们调查的所有组织中也显示出表达降低,无论是否存在PMD(图2D)。在IMR90和PA-2中,这些区域显示出(H3K27me3和H3K9me3的抑制性修饰的富集;中位差0.025–0.168读取每千碱基每百万(rpkm);Mann–Whitney P<2.51*10-2161)和活性修饰(H3K4Me1,H3K27Ac和H3K36Me3;中位差0.050–0.012 rpkm;Mann–Whitney P,2.03 310253)与混洗区域相比(图2e,f,扩展数据图6D、E和补充方法),这为它们的抑制提供了潜在的机制。为了试图解释这种整体低甲基化,我们绘制了DNMT1、DNMT3a、DNMT3b和DNMT3L的表达水平,但没有发现有和没有PMDS的样品之间的系统表达差异(扩展数据图。7A–D)。

  先前的研究已经强调了在人类胚胎干细胞4、脑1、20和骨骼肌中PGC-1A基因(PPARGC1a)的启动子27中存在CG背景(MCH)之外的甲基化。我们在许多这些组织中发现了相当数量的MCH的证据,(图。图3A和扩展数据图)。5-BP基序将样品分为两组,一组为富含TNCAC基序的MCH,另一组为富含NNCAN基序的MCH(其中N为任意碱基)(补充方法)。 TNCAC基序与先前在纯化的胶质细胞(GLA)和神经元(NRN)(TACAC)中鉴定的基序高度相似。这些基序不同于在H1胚胎干细胞(H1)和诱导多能干细胞(TACAG)4,26(中发现的基序。3B–D)。我们通过绘制具有TNCAC基序的25个样品中MCH位点的甲基化水平的分布来量化这些样品中MCH的程度,这揭示了与GLA、NRN和H1相似的甲基化水平(扩展数据图8B)4,20。大多数组织类型始终富集TNCAC或NNCAN基序,但有几种(食管、肺、胰腺和脾)具有不一致的重复,这表明MCH在这些组织中分布不均匀。

  为了检测MCH在成人组织中的潜在功能效应,我们绘制了基因体MCH不同分位数表达水平的分布图,因为先前报道其与H1中的表达呈正相关(参考文献4),与神经元中的表达呈负相关20。 该分析揭示了表达和MCH之间的负相关性(扩展数据图8C和补充方法)。接下来,我们通过CAS甲基化(的模式来组合我们的重复和聚类基因,其中S是其基因体中和周围的G或C)(图3E和补充方法)。为了表征分配给每个聚类的基因,我们进行了David功能注释聚类(补充表9和补充方法),这揭示了几个不同的类别。簇1、2、16和19包含高度富集参与基本细胞过程的术语的基因,并且在所有样本中具有活跃的甲基化状态(即,胚胎样本中的高甲基化和组织和脑样本中的低甲基化)。簇5和6由与神经元功能相关的术语主导,并且该类别中的基因在神经元和神经胶质细胞之间具有不同的甲基化,并且在其他样本中具有失活的甲基化状态(即,在胚胎样本中为低甲基化,而在组织和脑样本中为高甲基化)。 簇12富含心脏和肌肉相关的术语,其基因在三种心脏组织中具有活跃的甲基化状态,在腰大肌中具有弱活跃的甲基化状态,但在其他样本中表现为不活跃。最后,簇14在脑和组织样品中具有活跃的甲基化状态,但在胚胎样品中不活跃。尽管在H1样本中不活跃,但这类基因在与发育相关的术语中高度富集。

  为了更好地确定MCH基序在发育过程中的转变,我们检测了各种分化的(组织、NRN和GLA)、胚胎(H1UNK6和胚胎衍生的UNK7神经祖细胞UNK8NPCUNK9、中内胚层(0MES(1、滋养层样(2TRO(3、间充质干细胞(4MSC(5(628细胞样品(7中CAC和CAG(MCAC和MCAG)位点的甲基化水平的比率。3F)。除脑细胞外,MCH水平在分化过程中下降,并且MCAC/MCAG比率揭示了基序使用随发育时间的变化(图。 3F);虽然,MCAC和MCAG在同一基因内在早期胚胎和分化组织中仍然紧密相关,(扩展数据。8D,E)。

  甲基化先前已被证明可以预测神经元中逃避X染色体失活的基因20。我们通过比较基因的启动子MCG和基因体MCH来研究这些样品中的这种现象,这些基因先前已被鉴定为在11个具有MCH的组织中逃避X染色体失活29(图4A)。雌性特异性启动子MCG低甲基化和基因体MCH高甲基化以与神经元20相似的水平存在于逃逸基因中(扩展数据图9A)。使用这些组织甲基化组,基因体MCH可明显预测双特异性表达基因(AUC 0.89;扩展数据图9b和补充方法)。在较小程度上,我们观察到雌性特异性启动子MCH和逃逸基因的基因体MCG超甲基化(扩展数据图。9a,C,d)。尽管雌性特异性启动子MCG低甲基化、启动子MCH高甲基化和基因体MCG高甲基化可预测X染色体失活逃逸者,但雌性特异性基因体MCH高甲基化是X染色体失活逃逸者最具预测性的特征(扩展数据图 9A,B–E)。我们在612个X连锁基因中的109个中检测到女性特异性MCH超甲基化,包括在所有11个组织中超甲基化的9个基因和仅在一个组织中超甲基化的72个基因(图4B)。几个基因,如FUNDC1,在几个组织中表现出雌性特异性的超甲基化,但在神经元中没有,这表明逃避X失活的组织依赖性调节。等位基因特异性甲基化和表达(分别为ASM和ASE)也可能在常染色体基因的调节中发挥作用。

  为了检验人类组织中的这些现象,我们将RNaseQ和甲基C-seq数据集与本研究中每个个体的阶段性基因型相结合3,15(扩展数据图10A和补充方法)。使用三份组织样本(脂肪(FT)、胃(GA)、腰大肌(Po)、小肠(SB)和脾脏(SX)),我们确定了CG背景下的8,464–48,560个ASM事件和这些组织中的48–403个ASE基因(补充表10、11和补充方法)。接下来,我们寻找在组织类型(组织变量)内的个体之间变化的ASM事件和在个体(个体变量)内的组织类型之间变化的ASM事件。 在变化的ASM事件中,4.1-7.5%和54.5-70.0%分别是组织和个体变量;然而,在变化的ASE事件中,0.0-20.0%是个体可变的,13.3-48.8%是组织可变的(图4C和补充方法)。在ASE事件中,38.4–87.4%的ASM事件在100kb内,并且在这些位点中,76%的ASM和ASE事件匹配(即,DMR在与更高表达的等位基因相同的单倍型上低甲基化)。此外,我们发现在ASM事件附近观察到更大比例的ASE基因,无论这些事件是否与(扩展数据匹配。10 B、C和补充方法)。这些结果证明了人体组织中ASM和ASE之间的联系。

  在这里,我们展示了迄今为止最深的MCG和MCH的碱基分辨率图谱,以及大量人类组织的染色质修饰状态、单倍型分辨的基因组序列和转录谱。这些数据集使我们能够准确地识别顺式调控元件。 此外,他们揭示了在分化的人类组织的细胞亚群中存在MCH全基因组,这似乎是抑制性的。我们对人类组织中基因MCH的分析表明,其组织特异性分布与先前在胚胎干细胞和大脑中鉴定的基因不同。这些基因在各种功能上都很丰富,最令人惊讶的是那些与发育有关的基因。这些分析提出了一种有趣的可能性,即MCH用于成体干细胞30,并可能有助于在细胞转变为其分化角色时抑制这些基因。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容