机器学习识别肿瘤干性指数mRNAsi

肿瘤干性细胞指数si是一种描述肿瘤细胞与干细胞相似程度的指标,可以认为是CSCs的量化。干细胞具有自我更新以及治疗耐药性的特征,在癌症中发挥着重要作用。

2018年发表在Cell上面的一篇文章采用创新的单类逻辑回归(OCLR)机器学习算法,通过对干细胞转录组、甲基化组和转录因子结合位点的多平台分析,得到了两个独立的干性指数,其中mRNAsi可以反映干细胞的基因表达特征,另一种mDNAsi则反映干细胞的表观遗传特征。目前研究肿瘤干细胞大多通过RNA计算的mRNAsi进行相似程度评估,因此本次我们也针对mRNAsi的OCLR计算过程进行分享。

  流程大体思路如下

利用PCBC数据库中的干细胞类群及其分化的外胚层、中胚层和内胚层祖细胞信息作为初始数据集,使用OCLR算法训练推导出干性指数。然后将基于OCLR的计算得到的干性指数对应的转录组表达量应用于TCGA数据集,计算每个样本的mRNAsi。每个干性指数(si)的范围从低(0)到高(1)。


一、加载相应R包

二、创建genes2hugo函数

该函数可以将Ensemble ID转换为HUGO Symbols。


三、创建模型训练函数

首先我们创建函数main.train对新数据进行训练,该函数的流程分为以下几步:

1)利用synGet获取PCBC数据,包括两种数据,其中X是一个由229个细胞样本的13189个基因构成的表达矩阵,Y是一个含有301个观测值的单变量数据框;

2)从 metadata 获取 labels;

3)调用之前创建的genes2hugo函数,将Ensembl ID转换为HUGO Symbols;

4)计算每个基因的平均值中心(初始值-平均值);

5)根据y是否等于“SC”判断干细胞并将所有样本划分为干细胞组X.tr和非干细胞组X.bk;

6)执行gelnet函数来训练模型,gelnet函数使用协调下降的迭代方法,具有四个主要的参数:

# X: 由( X.r )转置后的矩阵

# y: 如果为`NULL`则为一类模型 

# l1: L1范数惩罚的系数=> 0 

# l2: L2范数惩罚的系数=> 1

7)将signature文件存储为pcbc-stemsig.tsv;

8)使用留一法交叉验证测试模型的准确性。

函数main.train完整代码如下:


四、创建预测函数

接下来创建main.predict函数预测未知样本的mRNAsi指数,该函数的流程分为以下几步:

1)读入上个模块中保存的signature文件,同时读入样本的基因表达数据(该示例从synapse中获取表达数据);

2)过滤基因ID,保留仅在signature中包含的HUGO symbols, 并将表达矩阵X转为矩阵形式,其中行为基因名,列为样本名称;

3)使用Spearman相关性对矩阵`X`评分,并将评分标准化为0到1之间;

4)分数输出到文件mRNA_StemScore.tsv。

函数main.predict完整代码如下:


五、执行完整分析

在创建完上述函数main.train和main.predict后,我们使用main函数将这两个函数打包,最后运行main函数执行完整的分析。

参考文献:Malta TM, Sokolov A, Gentles AJ, Burzykowski T, Poisson L, Weinstein JN, Kamińska B, Huelsken J, Omberg L, Gevaert O, Colaprico A, Czerwińska P, Mazurek S, Mishra L, Heyn H, Krasnitz A, Godwin AK, Lazar AJ; Cancer Genome Atlas Research Network, Stuart JM, Hoadley KA, Laird PW, Noushmehr H, Wiznerowicz M. Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation. Cell. 2018 Apr 5;173(2):338-354.e15. doi: 10.1016/j.cell.2018.03.034. PMID: 29625051; PMCID: PMC5902191.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,290评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,107评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,872评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,415评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,453评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,784评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,927评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,691评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,137评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,472评论 2 326
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,622评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,289评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,887评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,741评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,316评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,490评论 2 348

推荐阅读更多精彩内容