单细胞数据挖掘||DOSE:疾病本体论语义相似分析

在拿到单细胞数据之后,我们指的跑完了cellranger 、scater、singleR、 seurat、monocle这些培训班老师带你走完的流程之后,要进一步的挖掘或者辅助挖掘往往就要和具体的生物学过程结合到一起了。所谓的数据挖掘,就是带着少量已知向未知进军的过程。

单细胞转录组数据分析离不开cell和gene两个层面,那么gene除了做做pathway之外还能做什么呢?当然是看看有没有和疾病有关的信息啊。已经有人给你贮备好了:

高清图见原文

(A)语义相似矩阵热图;(B)疾病和基因关联网络;(C)浓缩结果的条形图;(D)富集分数的累加和图及其与表型的关系,(E)不同基因组间疾病关系的比较

描述疾病与疾病之间的关系以及挖掘基因与疾病之间的关联为分析高通量数据以阐明复杂疾病的分子机制提供了新思路。了解疾病之间的相似性和疾病环境中的基因之间的相似性有助于早期诊断、药物的重新利用和新药的开发。通过高通量实验获得的基因列表(gene list)研究基因-疾病之间的关系有助于探索疾病环境中的生物学问题并发现未预料到的功能。

疾病本体论(DO)从疾病的角度对基因进行了一致的描述。DO数据库(Schriml et al., 2012)为研究人员提供了更易于访问的疾病知识,为用户提供了一个浏览DO词汇表的web浏览器,而disease and gene annotations数据库(Peng et al., 2013)提供了一个绘制基因和疾病的web界面。DO被组织成一个有向无环图,为使用语义相似算法计算疾病知识奠定了基础。用于计算语义度量的通用质量工具有很多,包括SML、SimPack、SemMF、OWLSim和相似度库(http://goo.gl/3xCuJ6)。这些通用库可用于分析DO语义相似性。DOSim (Li et al., 2011)是专为DO设计的,但作者未能维护该包。Functional DO (FunDO) (Osborne et al., 2009)采用超几何检验评估DO与基因列表的显著相关性。然而,FunDO不允许用户自定义背景基因,因此可能会在结果中引入偏差。

为了解决R/Bioconductor package缺乏语义计算和基于DO的富集分析的缺点,我们提出了DOSE,它允许使用几种基于信息内容和图结构的算法来测量DO术语和基因之间的语义相似性。为了评估高通量基因组和蛋白质组研究的基因列表的功能相关性,DOSE支持超几何检验和基因集富集分析(GSEA),它们结合表达水平的测量来提取生物学实验的疾病相关性。更重要的是,DOSE提供了几个特定于do的可视化功能,以生成高度可定制的、发布质量高的相似度和丰富度分析数据,这在其他地方是不可用的。利用这些可视化工具,DOSE得到的结果更具有可解释性。

公共卫生是生物和医学研究的重要推动力。后基因组时代的一个主要挑战是弥合基础生物学研究与临床应用之间的鸿沟。最近的研究越来越多地表明,许多看似不同的疾病具有共同的分子机制。了解疾病艾滋病在早期诊断和新药开发方面的相似性。

因此,需要基因-疾病关联的正式知识表示。诸如基因本体论(GO)等本体论已被成功地应用于表达生物知识,许多相关技术也被用于提取信息。疾病本体论(Disease Ontology, DO)(Schriml et al. 2011)是为了从疾病的角度对基因产品进行一致的描述而开发的,它对于理解疾病背景下的功能基因组学非常重要。准确的疾病描述可以发现基因与疾病之间的新关系,以及以前未知的基因和等位基因的新功能。

与其他临床词汇对疾病相关概念的定义不同,DO被组织成一个有向无环图,为疾病知识的定量计算奠定了基础。在此,我们提出了一个R包[Yu et al.(2015)],用于分析DO术语与标注DO术语的基因产品之间的语义相似性。

DOSE(Yu et al. 2015)支持疾病本体论(Disease Ontology,DO)语义学(Semantic )和富集分析。enrichDO对于识别感兴趣基因的疾病关联是非常有用的,而gseDO函数是为基因集富集分析而设计的。

此外,DOSE还支持Cancer Gene Network (NCG)的富集分析(A。以及疾病基因网络(Janet et al. 2015),请参阅DOSE

DO term semantic similarity measurement

Resnik(Philip 1999)、Jiang(Jiang and Conrath 1997)、Lin(Lin 1998)和Schlicker(Schlicker et al. 2006)提出了四种基于共同祖先词信息含量来确定两个词语义相似度的方法。Wang(Wang et al. 2007)提出了一种基于图结构的相似性度量方法。这些方法各有其优缺点。DOSE实现了所有这些方法来计算DO术语和基因产物之间的语义相似度。我们开发了另一个包GOSemSim(Yu et al. 2010),从GO的角度探索功能相似性,包括分子功能(MF)、生物过程(BP)和细胞成分(CC)。

关于算法的细节,请参考:GOSemSim.

doSim function

我们实现了doSim来计算两个DO术语和两个DO术语集之间的语义相似度。

> a <- c("DOID:14095", "DOID:5844", "DOID:2044", "DOID:8432", "DOID:9146",
+        "DOID:10588", "DOID:3209", "DOID:848", "DOID:3341", "DOID:252")
> b <- c("DOID:9409", "DOID:2491", "DOID:4467", "DOID:3498", "DOID:11256")
> doSim(a[1], b[1], measure="Wang")
[1] 0.07142995
> doSim(a[1], b[1], measure="Resnik")
[1] 0
> doSim(a[1], b[1], measure="Lin")
[1] 0
> s <- doSim(a, b, measure="Wang")
> s
            DOID:9409  DOID:2491  DOID:4467  DOID:3498 DOID:11256
DOID:14095 0.07142995 0.05714393 0.03676194 0.03676194 0.52749870
DOID:5844  0.14897652 0.11564838 0.02801328 0.02801328 0.06134327
DOID:2044  0.14897652 0.11564838 0.02801328 0.02801328 0.06134327
DOID:8432  0.17347273 0.13877811 0.03676194 0.03676194 0.07142995
DOID:9146  0.07142995 0.05714393 0.03676194 0.03676194 0.17347273
DOID:10588 0.13240905 0.18401515 0.02208240 0.02208240 0.05452137
DOID:3209  0.14897652 0.11564838 0.02801328 0.02801328 0.06134327
DOID:848   0.14897652 0.11564838 0.02801328 0.02801328 0.06134327
DOID:3341  0.13240905 0.09998997 0.02208240 0.02208240 0.05452137
DOID:252   0.06134327 0.04761992 0.02801328 0.02801328 0.06134327
> 

doSim函数需要三个参数DOID1、DOID2和测量。DOID1和DOID2应该是DO项的向量,而measure应该是Resnik、Jiang、Lin、Rel和Wang中的一个。

我们还实现了一个plot函数simplot来可视化相似结果。

simplot(s,
        color.low="white", color.high="red",
        labs=TRUE, digits=2, labs.size=5,
        font.size=14, xlab="", ylab="")
Gene semantic similarity measurement

在DO术语语义相似度的基础上,DOSE还可以计算出基因产品之间的语义相似度。DOSE提供了max、avg、rcmax、BMA四种方法来结合多个DO术语的语义相似度得分。利用这些组合方法计算了多DO标记的基因与基因簇之间的相似性。计算细节请参考 GOSemSim

geneSim function

在DOSE中,我们使用了geneSim来测量基因之间的语义相似性。

> g1 <- c("84842", "2524", "10590", "3070", "91746")
> g2 <- c("84289", "6045", "56999", "9869")
> geneSim(g1[1], g2[1], measure="Wang", combine="BMA")
[1] 0.051
> gs <- geneSim(g1, g2, measure="Wang", combine="BMA")
> gs
      84289  6045 56999  9869
84842 0.051 0.135 0.355 0.103
2524  0.284 0.172 0.517 0.517
10590 0.150 0.173 0.242 0.262
3070  0.573 0.517 1.000 1.000
91746 0.351 0.308 0.527 0.496
clusterSim and mclusterSim
> clusterSim(g1, g2, measure="Wang", combine="BMA")
[1] 0.549
> g3 <- c("57491", "6296", "51438", "5504", "27319", "1643")
> clusters <- list(a=g1, b=g2, c=g3)
> mclusterSim(clusters, measure="Wang", combine="BMA")
      a     b     c
a 1.000 0.549 0.425
b 0.549 1.000 0.645
c 0.425 0.645 1.000
MeSH semantic analysis

MeSH(医学主题词)是NLM的受控词汇表,用于为MEDLINE/PubMed手动索引文章。meshes支持丰富(超几何测试和GSEA)和语义相似分析超过70种。

enrichDO function

在下面的例子中,我们选择1.5以上的FC变化作为差异基因,并分析它们的疾病关联。

library(DOSE)
data(geneList)
gene <- names(geneList)[abs(geneList) > 1.5]
head(gene)


DOSE
DOSE: an R/Bioconductor package for disease ontology semantic and enrichment analysis

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,599评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,629评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,084评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,708评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,813评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,021评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,120评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,866评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,308评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,633评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,768评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,461评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,094评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,850评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,082评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,571评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,666评论 2 350

推荐阅读更多精彩内容