第一块
1、题目
DNA甲基化和重复基因进化
DNA methylation and evolution of duplicated genes
2、作者
Thomas E.Keller ,Soojin V.Yi
E-mail: soojinyi@gatech.edu
3、杂志与时间
Pnas 2014
第二块
摘要之摘要
DNA甲基化在重复基因进化的不同方面起到非常重要的作用。重复基因上的甲基化会随着时间逐渐降低。DNA甲基化可能是重复基因出现功能分化的重要原因。主要表现为外显子上的甲基化模式差异。在不同组织中重复基因甲基化差异表现一致,73%的重复基因,一份比另一份甲基化程度高。DNA甲基化程度还与染色体开放性有关。高甲基化的重复基因启动子上有至少两段序列能够与sp1转录因子结合。这揭示了在重复基因进化方面基因组和表观基因组之间复杂的相互作用。
第三块
1、研究对象
l 重复基因的dna甲基化模式是如何随进化时间变化的
l DNA甲基化是否更容易发生在年轻的复制基因上
l 组织特异性的重复基因dna甲基化如何促进重复基因的功能分化?
l 不同组织见的DNA甲基化模式有何差异
2、研究基因
人类基因组中的重复基因
3、研究方法
各种统计学方法,你学废了吗?二项分布检验,fisher精确性检验,以及t检验,pearson相关系数。
(1)重复基因。通过Fasta36(Pearson WR, Wood T, Zhang Z, Miller W (1997) Comparison of DNA sequences with protein sequences. Genomics 46(1):24–36.)构建重复基因数据库。蛋白质之间两两比对,如果e<10, 对于长度大于150aa的序列identity> 30%,长度比较短的超过某一数值,认为这两个是一对重复。然后通过single-linkage clustering单簇聚类,构建基因家族。对于每个基因家族,我们首先使用MUSCLE对齐蛋白序列(46)。使用PAML的yn00模块两两计算dS后(47),选择dS最低的基因对,与MUSCLE重新排列,得到新的dS。我们重复这个过程,直到当前的基因家族被耗尽。这个过程从每个基因家族中产生了关系最密切的不重叠的基因对
一共3629个重复基因对。
(2)DNA甲基化数据。10个组织里的482481个cpg位点。R包IMA做甲基化分析。划分转录起始位点前1500base到第一个外显子属于启动子区;(包括第一外显子这么做是因为习惯),余下的都是genebody区。基因表达数据用tophat比对。Cufflinks组装计算表达丰度。
(3)DNA甲基化差异计算。通过除以总和进行一个标准化
(4)DNA甲基化的组织特异性。为了衡量DNA甲基化的组织特异性公式异常复杂
解释:Mi代表这部分基因在i组织中的表达量,Mmax代表这部分基因在所有组织里的最高表达量,取log2之后计算比例,再计算百分比,这个值越大,代表组织特异性越高,这个值越小,代表组织特异性越低。
(5)染色质开放性,DNAaseI亲和度数据来源于ENCODE。
(6)mortif富集分析。MEME。限制启动子区域为转录起始位点上游的1000个碱基。Repearmasker去重复。通过产生motif位置这样一个先验信息寻找在两个数据集里top5显著富集的motif。
4、研究结果
l 重复基因进化时间与甲基化程度的关系
(1) Ds:同义突变的位点数量,用来衡量基因的年龄;计算甲基化程度与ds的Pearson相关系数;A图:重复基因,promoter上甲基化程度与ds大小负相关;B图:重复基因body上甲基化程度与ds无明显相关;
(2) Recent:人类和恒河猴分化时产生的年轻的复制基因(138对);old:脊椎动物全基因组复制带来的重复基因(1062对)。C图:启动子上,近期重复基因比早期的甲基化程度更高;D图L在基因body上,甲基化差别不大。
l 重复基因不同拷贝上的甲基化分化
甲基化分化与进化时间的关系。(A)人脑中,越早期的重复基因甲基化差异程度越大,显示出正相关性;(B)计算10个组织的TSMI(组织特异性的甲基化索引),发现也是随着进化时间显示出正相关性。
细节:相对甲基化分化的指标计算见材料与方法;TSMI提供了10个组织中DNA甲基化的相对强度的信息,计算见材料与方法。ds划分为20个相等的bin。此处有个细节注意点:为什么图A里面,bin的分布不均匀,这里它应该是为了保证ds的每个子区间里的数目相等,所以ds不是均分的。ds=2的位置特别密集,可能是这里发生了WGD。
l 重复基因上的差异甲基化与基因表达上的分化有关
因此,我们检查了年轻重复启动子的重DNA甲基化是否与基因表达水平降低有关。重复基因的平均表达量与重复基因的进化年龄显著正相关(3A)。进一步探讨拷贝间差异甲基化的程度是否影响到基因表达的差异。
图3A:人脑中,近期重复基因的平均表达量较低,随着进化年龄增长而提高;(n=1298对重复基因)。(pearson r = 0.22, p <10-16)图3B:启动子上的相对甲基化值以及相对表达量值的相关度;高甲基化的基因拷贝表达量通常低于低甲基化的基因拷贝;图3C:人和小鼠的脑样本比较(表达量取自基因芯片数据);图4D:胎盘中的比较(表达量取自rna-seq)。
图3C和图3D,采用不同平台和不同组织的数据,主要是为了消除实验平台差异和组织差异的影响。
这里比较有意思的是,近期重复基因,表达水平一般是比较低的,甲基化的水平都很高,这是为了抑制它的表达,作为进化的原材料。选择压力使得甲基化的差异变大,也就是有一份甲基化维持,另一份甲基化程度降低,维持甲基化的不表达可能成为家基因,而甲基化较低的基因可以进化为新基因。
l 不同组织上绝大多数重复基因上甲基化差异表现一致
表观遗传修饰是否有细胞类型和组织特异性。
10个组织中,73%的重复基因上表现出一致的模式,一份总是比另一份更高。如果是满足二项分布,出现这种情况的概率是非常小的。所以并不是一种随机现象。
尽管在现实中,相似的细胞类型可能表现出相似的表观遗传学特征,但是这一结果仍然表明在发育过程中存在着显著的共一性
l 低甲基化拷贝的启动子上有特定motif的enrich
调查是否高甲基化拷贝上与低甲基化拷贝的基因组信号有差别,用MEME检查在持续高甲基化启动子上的五个显著富集的基序,反之亦然。用(MAST)计算这些motif在不同启动子集合中出现的频率。
结论:高甲基化的基因启动子上特定motif的出现频率并没有显著高于低甲基化基因启动子(bonferroni correction)。相反,有两个在低甲基化启动子富集的特定motif显著高于高甲基化。(fisher’s exact test, p<10-16)这些个motif能够结合锌指酶家族的sp1,能够抑制DNA的甲基化。可能也是导致甲基化分化的原因。
细节:bonferroni correction。
Fisher精确性检验
l 表现一致的高/低甲基化基因能形成独特的染色体结构
研究一致高的pair中高甲基化拷贝与低甲基化拷贝基因的染色质开放度。采用的数据集是DNAseI敏感数据(从三个大脑的不同部位)。一共2597对一致的,894对不一致的。是否高甲基化的基因染色质更加开放还是更加保守。
图5A:高甲基化的拷贝染色质更加保守;(fisher检验,p小于10-16),而对于不一致的无区别。图5B:验证是否有定量的差别。(双尾t检验,显著差异,控制样本量结果仍然稳固)结论:有力的支持了重复基因调控,包括表观遗传修饰上不同组织可能受同一套机制调控。
l 逆转座子的pair会带来更高的甲基化和表达差异的分化
DNA甲基化分化部分由基因组环境决定。逆转座子带来的重复基因它呈现出更高强度的DNA甲基化分化。这是由于他们更容易受到完全不同的染色体环境影响。采用的数据集是NCBI refseq database中的数据,并从中鉴定出来了一份拷贝有多个外显子,而另一份只有一个外显子。确保这是完全由逆转座带来的纯的转座子基因。
图6A:转座子基因相对于正常基因甲基化差异分化更大(双尾t检验,p=0.0008)。errorbar表示95%的置信区间。Retrogene启动子上有更大的差异分化;图6B:甲基化差异和表达差异负相关性很强,(cor=-0.7, p=10-4),相对于普通的duplicates(cor=-0.3, p=10-16)。
5、研究总结
表观遗传修饰对外界信号的可塑性,在早期发育过程中可能会由于特定的经历而改变并且影响发育重编程。然而,进化研究揭示DNA甲基化的保守性,在不同物种上面,基因上的甲基化和组蛋白修饰都是保守的。
为了更详细地了解dna甲基化分化的时间和空间动态,我们分析了跨越不同进化年龄的大量重复基因。。
(1)近期重复基因的启动子上高甲基化,早期的较低。持“expression reduction model”,复制之后的高甲基化会抑制重复基因的表达,为突变开始累积提供一个缓冲时间。
(2)表观遗传沉默可以促进功能的分化。甲基化差异与表达差异显著相关,这个结论即使在不同样本上依然靠谱。虽然严格来说我们只是提供了甲基化和表达差异之间存在协变的证据,但是启动子DNA甲基化和基因表达之间的因果关系已经得到了很好的证实。(文献17: Distribution, silencing potential and evolutionary impact of
promoter DNA methylation in the human genome. Nat Genet 39(4):457–466.)
(3)亮点:在多数组织里面,重复基因的甲基化分化状况表现一致。这与表观遗传修饰有是组织特异性的观点相斥,暗示在不同细胞里面可能重复基因接收同一套调控机制。并且,除了甲基化差异的一致性之外,还有其他的表观遗传修饰也有一致性比如染色体的开放性,以及基因组信号上面的差异。发现低甲基化拷贝有更高的染色质开放性,并且会富集更多的转录因子抑制DNA甲基化。在转座带来的重复基因上差距更明显,加强了基因组和表观基因组之间的关联。
6、讨论之可为我用
甲基化差异分化的指标,表达量差异分化的指标。
用ds衡量重复基因的年龄,分bin。以及,转座带来的重复基因。
7、讨论之存在问题
基因body上的甲基化与进化时间并没有显著关系。这与在哺乳动物中的研究一致。但是在植物当中是相关的。这样的不一致可能由于甲基化模式不一样导致。植物基因组中主要发生的事genebody甲基化。而在哺乳动物当中,主要是在启动子上发生甲基化。因为genebody上的甲基化会影响基因可变剪切。
不同类群的生物,Genebody甲基化与基因表达的相关关系有待进一步探讨。
8、讨论之画饼/其他