从世界经济危机角度谈制药巨头们最喜欢使用的一个算法

看到这个标题你也许会觉得奇怪,世界经济危机和药厂研发使用的一个算法会有什么联系呢?本次的文章要介绍一个在各大制药公司非常流行的一个算法,来说明这些顶尖科学家们是如何利用计算手段来加速研发新药的。相比用枯燥的公式和术语,这里利用世界经济危机的例子来类比阐述,可以让读者们更清楚直观地了解算法的背后思想,具体细节可以参阅参考文献。

假设现实世界中,我们观察到很多国家深陷债务风波,但是也有少数国家GDP增长,总体来看,我们知道此时发生了一次世界经济危机。又假设你作为一个联合国或者世界银行首脑,想要解决世界经济危机,可是该从什么地方下手呢?多国发生债务风波,都只是观察到的表面现象,如果随机从一两个国家入手修修补补,效果必然不大。这时候你知道这其中一定有深层次原因,只有从根源上找出引起连锁反应的原因,并加以纠正,才能取得最大的效果。所以为寻找突破口,不妨首先分析一下国与国之间的经济关系,比如中国美国和其他国家的关系。

中国和美国,都是世界的经济大国,对它们周围和下面的国家具有很大影响力,它们现在经济情况都不好,都是可能导致此次经济危机的主要原因。要想最大程度消除经济危机,且只能救一个的话,是救中国还是救美国呢?我们可以首先考察两国和其它国家的经济关系,比如泰国,韩国和日本。历史上来看,中国和泰国韩国历来经济关系比较正面,在以前的历史记录里,都是一荣俱荣,一损俱损的。而和日本,经济关系就不怎么样,中国荣而日本衰,反之亦然。因此从这些历史记录里,可以总结出一个规律进行建模。即中国对泰国和韩国有“激励”作用,而对日本有“抑制”作用。具体来说,模型会定义当中国经济不行的时候,泰国和韩国经济也会受影响衰落,反之中国经济繁荣,它们也会跟着欣欣向荣。另一方面,中国经济不好的时候是日本经济高兴的时候,当中国经济繁荣时,日本则会躲在一旁“别为我哭泣”(图1)。

图1. 中国与各国的经济关系和模型预测,左图的+号和-号分别代表激励和抑制作用。右图的+则代表经济良好,-号代表经济衰退。

同样地,可以根据历史记录分析美国和这些国家的经济关系,由于美国跟日本和韩国都是盟国关系,所以模型会定义美国对这两国家都是“激励”作用,而美国和泰国历来不对付,是“抑制”作用(图2)。于是以此类推,整个世界经济的一个关系网络就这么建成了。

图2. 美国与各国经济的关系和预测,符号注释见图1

接下来,我们会根据实际观察到的现象来评估这个模型的表现情况,为每个预测的准确性进行打分,在这场经济危机里,中国经济出现困难,而且我们观察到泰国经济也不行了,这符合模型的预测,加一分。韩国的经济情况也不好,预测正确再加一分。我们进一步发现,此时日本却能经济独好,又一次符合模型定义,所以在这个模型预测里,中国的得分是3。再看美国,由于对日本韩国都是“激励”作用,因此当美国经济衰落的时候,这两国家理论上应该都会衰落受影响,而被“抑制”的泰国会则理论上会出现经济好转情况,可是这里日本和泰国的情况跟模型预测的不对,出现了偏差,所以预测和观察结果美国两错一对得负分(当然实际上模型的打分系统会比这个复杂许多)。最终在这个模型预测里,根据此次经济危机中观察到的结果,中国得分高,所以中国此次对世界经济危机影响大,救中国最有可能让其他国家经济结果朝预想的结果发展。而对于美国,因为模型预测和实际观测的很多不一致,所以此次影响微弱,救它则对很多其他国家经济充满了不确定性。所以为了让世界重新美好,而且只能救一个国家的情况下,那必然是选择先救中国了!

好奇的你可能会继续追问,那么在什么情况下选择救美国比较好呢?根据模型预测我们可以很快推出,如果此次经济危机的情况表现为韩国和日本衰落,而泰国经济不错的时候,这个时候美国的得分将会最高,所以救美国则效果会比较好。

图3. 中国还是美国?

这便是算法Causal reasoning的一个基本思路,笔者把它翻译成“因果推理”。Causal reasoning的本质上是一种基于贝叶斯理论的概率推算。它首先基于以前大量的实验或者事实中观察到的现象而构成先验知识库,从而可以对以后每一次事件中所观察到的现象,与先验知识库比较而推导出造成事件的最可能原因。Causal reasoning在很多领域有广泛应用,在生物医学的研究领域里,此算法的应用最早由法国赛诺菲(Sanofi)公司的Jack Pollard等人提出,用于进行2型糖尿病的发病机制和靶点研究[1],随后此算法由美国最大的制药公司辉瑞(Pfizer)公司进行了改进[2],目前已经成为各大制药公司的计算科学家们最喜欢最常使用的一个算法。

为什么这种算法能受到世界各大著名大制药公司的青睐呢,这还得从制药公司最关注什么说起。首先万物皆有因果,经济危机如此,疾病也是如此。很多疾病,表象都是某些生物过程出现了紊乱,这个过程中会导致很多基因的表达会发生显著变化,这都是临床或实验中观察到的现象,算作“果”,而真正的“因”其实是一个或者几个基因功能失常引起的,但究竟是哪些我们还并不清楚。为了研发一个新药,制药公司最想知道的就是哪些基因是导致疾病的“罪魁祸首”。又是哪些基因在疾病过程中起关键作用,由于它们变化而导致了生物过程紊乱,从而引起了其他基因的变化。目前主流的生物信息分析方法,比如通过高通量测序寻找疾病中突变的基因,但这种方法有一定局限性,它并没有考虑基因表达在疾病状态的变化,也无法预测它对其他基因表达的影响,而且很多时候突变不一定就会导致疾病。还有一种手段则是通过病人样本的微阵列或者RNA测序分析,一般都会得到很多表达显著变化的基因,然而大部分分析停留在基因信号通路(pathway)或者GO(gene ontology)的富集检测上,考察它们参与了哪些信号通路或生物过程就到此为止了。可惜到了这一步,所得到的结论还仍然比较粗糙和浅显。由于显著变化的基因一般动辄几百上千个,仅仅停留在某些生物过程阶段,这对制药公司了解疾病机制,精确寻找一两个药物靶点,显然还是不够的。因此为了能从果找到因,这就需要利用已有的知识库和线索建立一个基因关系网络的预测模型,再跟观察到的现象相比较,判断其合理性和可能性,才能追本溯源,最终筛选出表象下的根本原因。

正如在经济危机模型的例子里面,需要用到历史记录一样来定义国与国之间究竟是“激励”还是“抑制”作用一样,Causal reasoning算法的应用,首先也必须建立起这样的先验知识库来定义基因之间的相互作用(一般具有方向性),例如某个基因表达上调是否会引起它下游的某个基因的上调或者下调,它们之间究竟是“激励”还是“抑制”关系,这需要一个长期和大量的基础实验积累。幸运的是,在基础研究的驱动下,已经有大量的论文发表,科学家们通过实验清楚地了解了很多基因之间的作用关系,并阐述在文献里,因此整个基因之间相互作用的关系知识库,便是通过整理海量的文献而来。这样的文献知识整理,或通过科学家们阅读文献,通过专业判断录入数据库,或通过自然语言处理方法,快速挖掘出有效的信息整理而成(图4)。总之这是一项庞大的系统工程,包含至少几十万条记录,虽然浩大,但却是系统生物学和大数据分析发挥威力的必要准备。

图4. 基因作用关系知识库的手工录入页面(来源:汤森路透)

当完备的基因关系知识库完成后,便可以利用Causal reasoning发挥计算预测的威力了。如前所述,在对某种疾病分析得到一堆表达变化显著的基因之后,如何继续缩小范围或者对这些基因做一个排序,以期得到最相关的候选基因呢?类似于前面提到的国家经济关系分析手段,这时我们可以利用Causal reasoning算法把这些变化显著的基因投射到基因作用网络之中,根据知识库的预测和观察到的基因表达变化作比较进行打分。比如某个基因在网络中连接有若干的下游基因,在某疾病检测中观察到此基因表达上调了,于是它下游基因的理论表达变化,便会根据文献中的知识分别预测为上调或者下调。算法再将这些预测的和疾病中实际观察到的基因表达一一相比较,如果预测和观察一致,则加分,反之则减分,对于没有文献证据或者关系模糊的基因关系,则分数不变化。如此一来,基本每个基因都会得到一个评分,这个评分结果,最高的便代表哪些基因的观察结果和预测结果最为一致,也就是最有可能在此疾病过程中起到关键作用的基因。又或从另一角度来说,如果用药物去调控这些基因的表达,理论上可以影响它们大部分下游基因表达回到正常表达状态,从而起到治病的效果。因此这便是用计算方法筛选靶点的一种思路,跟前面选择救美国还是救中国是一个道理(图5B)。

图5. 利用Causal reasoning和网络拓扑分析筛选药物靶点

需要说明的是某个算法评分并不是唯一判断依据,生物系统非常复杂,实际研究中还要结合其他证据进行强化分析。比如可以进一步结合基因作用网络的拓扑性质对基因进行权重分配,基因网络的中心节点(key hub)一般会被认为在疾病过程中所起作用比较大(图5A)。这也符合我们一般的规律认识:在世界经济版图中,美国和中国都是主要节点,自然被考察的概率会更高一些,基因也是如此。此外还可以结合高通量测序和GWAS分析来进一步缩小范围,找出“嫌疑”最大的基因。只有这样通过不断强化的科学证据支持,才能说服制药公司的决策者们进行下一步的行动。因为药厂的每一次下步行动,从动物实验到临床试验,都会耗费巨大的资源和费用,所以制药公司总是期望早期研究能提供证据最强,数目越少的基因作为候选靶点。但如果沿用以前传统的实验加文献查阅方法,评估完几百个基因通常花好几个月甚至几年,费时费力。而Causal reasoning这样的计算方法,便可以迅速地在几分钟内推选出最相关的基因,极大地缩短研发时间。正是因为这种迅捷和强大,所以这个计算方法受到了很多制药公司的青睐,成为了一种重要的分析方法。

图6. 药物靶点和生物标志物筛选流程

图6显示了科睿唯安(原汤森路透)公司如何组合使用各种数据库和计算方法来快速筛选和评估潜在的治疗阿尔兹海默症的药物靶点。在这个分析流程里,第一步是首先通过传统分析方法得到疾病状态下表达变化显著的基因(DEG)列表,而接下来第二步里的Metacore Key Pathway Advisor(KPA)则起到了非常关键的筛选和排序作用,KPA通过Causal reasoning和网络拓扑性质(Connectivity)对每个基因进行评估和排序,再辅以信号通路的富集分析,便可以快速地从病人的样本筛选出最具潜力的治疗此病的药物靶点(图7),最后第三步则是结合有关靶点的成药特性,潜在适应症,以及竞争对手的研发情况等综合考量,从而进行go or no-go的研发决策。

图7. Causal reasoning筛选出的最具潜力的治疗阿尔兹海默症的药物靶点(KPA)

除了发现筛选靶点外,Causal reasoning还可以结合不同的数据,组合不同算法,在药物研发的各个阶段发挥强大的预测作用,比如生物标志物的发现,药物的副作用预测,耐药机制的研究和病人分类等,这里限于篇幅原因不一一叙述。当然这种算法的便捷和强大,是建立在完备的知识库之上的,是建立在“工欲利其事,必先利其器”的指导思想下,事先进行的基础建设之上的。只有建好了先验知识库,很多像Causal reasoning这样的基于贝叶斯理论的算法才能有用武之地。笔者以为,要成功应用这个算法,高质量和完善的知识库是必不可少的。基因之间“激励”和“抑制”关系的必须真实可靠,基因之间的相互作用关系要尽可能全。对于缺失和模糊的基因作用关系,还有待于更多基础研究来和发表的文献来验证。相信随着这种知识库的不断完善,Causal reasoning的预测表现将会越来越精准,越来越多的强大算法也将不断创造和发展出来。

本文作者朱成为赛诺菲高级信息研究科学家。

参考文献:

[1] Pollard J Jr, etal. (2005) A Computational Model to Define the Molecular Causes of Type 2 Diabetes Mellitus. Diabetes Technol Ther 2005, 7(2):323-36.

[2] Chindelevitch L, et al, Causal Reasoning on BiologicalNetworks: Interpreting Transcriptional Changes. Bioinformatics 2012, 28:1114-1121.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,561评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,218评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,162评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,470评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,550评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,806评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,951评论 3 407
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,712评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,166评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,510评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,643评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,306评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,930评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,745评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,983评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,351评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,509评论 2 348

推荐阅读更多精彩内容