在NGS飞速发展的时代,有大量研究通过GSWA的方法,阐述了SNP于疾病之间的关联; 也有学者利用WGBS,RRBS, 甲基化芯片等方式研究DNA甲基化与疾病之间的关系。不过是对于SNP和DNA甲基化,都有许多独立的数据库存储和整理相关信息,但是却缺乏公开的整合了SNP和DNA甲基化等多组学数据的数据库。
从近100名志愿者中提取3种类型的细胞,并分别进行WGS
, WGBS
, RNA_seq
测序分析,将最终的数据存储到iMETHYL
数据库中。iMETHYL
整合了SNP, DNA甲基化和RNA表达谱的数据,并进行了两两之间的关联分析。
网址如下:
http://imethyl.iwate-megabank.org/index.html
在STATISTICS
页面,提供了两个基本信息。
3种组学数据的分布
可以看到志愿者的性别,年龄的基本情况,以及DNA甲基化,基因表达和SNV的汇总信息。
在上面这个表格中,常染色体的CpG个数值得注意,个数为23M 左右, 而甲基化芯片为450K或者850K, 可以明显看到WGBS
相对甲基化芯片的优势。
CpG位点在各染色体的分布
这里只给出了常染色体上的分布,可以看到1号染色体上的CpG位点是最多的
在HOME
页面,提供了3种检索方式
Gene Symbol
dbSNP rsID
chr Position
检索的结果通过基因组浏览器进行展示:
看下DNA甲基化,转录组数据和SNV数据在基因组浏览器中的展示方式。IMM:3 cell-types
用于显示每个细胞系甲基化,基因表达量和SNV的结果
RNA_seq的数据,通过FPKM进行展示,在基因组浏览器中会给出每种细胞,检测到的转录本
SNV的结果采用点来展示,每个|
代表一个SNV位点
鼠标悬停之后,可以看到对应的rs
编号和碱基的突变情况
甲基化位点的展示方式和SNV类似
对于3种组学的数据,imethy
还通过QTL
分析两两之间的关联。
基因型和基因表达谱之间的关联分析通过cis-eQTL
来实现; DNA甲基化和基因表达谱之间的关联分析通过cis-eQTM
来实现,DNA甲基化与基因型之间的关联分析通过cis-mQTL
来实现。
eQTL
和mQTL
都是列出于该基因相关联的SNP位点,eQTM
列出与基因相关联的甲基化位点。
iMETHYL
数据库代表的是一种趋势,多组学数据整合分析的趋势。随着测序成本降低和分析技术的成熟,单组学的数据大量涌现,但是生命活动这么复杂的事件,其影响因素必然是多个方面的。多组学数据的整合分析允许我们多方位,更全面,更深入的进行研究和探索,必然是一个趋势。
这个数据库也给我们做了一个示例,DNA甲基化可以与转录组,基因组SNV
的数据进行联合分析,分析的具体方法可以参考和借鉴该数据库,使我们的研究结果更加的丰富。