前言
关注生信宝库时间比较久的小伙伴会发现,我们除了更新免疫相关的推文外,最多的就是单细胞研究相关的算法的文献解读了。最近有一位粉丝通过后台和我们说能不能更新一些单细胞联合bulk测序或者是bulk数据挖掘的推文,那当然是没问题啦,生信宝库是很宠粉的!
其实Immugent之前就写过一篇推文:基于单细胞数据进行Bulk定量之MuSiC,可以对小鼠和大鼠的bulk数据进行deconvolution;此外,在IOBR:一个R包带你走进数据挖掘的殿堂中介绍了一款功能强大的bulk数据挖掘软件,感兴趣的小伙伴可以学习一下。
由于目前scRNA的测序成本依然很高,我们无法实现对很多患者同时进行scRNA-seq,这就限制了样本量因此很多在大批量bulk数据上进行的分析无法开展,因此联合bulk和scRNA可以为我们提供更好的研究视野。今天Immugent介绍一款今年发表的一个联合分析bulk和scRNA数据的新软件--Scissor,相应的文章发表在Nature Biotechnology杂志上。总的来说,Scissor可利用大量单细胞数据和表型信息识别与疾病高度相关的细胞亚群,从一个新的角度来探索和解释了单细胞数据,对揭示疾病的机制,提高疾病的诊断和治疗具有重要意义。
由于这个软件功能还是挺强大的,Immugent会连续推出3篇推文对其进行介绍,首先是今天这篇对原文献的解读,后面会推出两期代码实操,敬请期待!
主要内容
文章的第一幅图主要是介绍Scissor的开发流程,Scissor的三个输入数据源分别是单细胞表达矩阵、bulk表达矩阵和目的表型的信息。每个bulk样本的表型注释可以是连续变量、二分向量或临床生存数据。Scissor利用批量数据及其注释的各类表型信息,从单细胞数据中自动识别与给定表型相关度最高的细胞亚群。Scissor的关键步骤是通过对每对细胞和bulk样本的Pearson相关性等检测,量化单细胞数据和大量细胞数据之间的相似性。
利用来自TCGA的577个肺腺癌(LUAD)肿瘤样本和正常表型样本,研究团队设计了一个基于样本表型相关矩阵的回归模型并整合了相似性网络。通过优化这个回归模型,Scissor可以识别与目标表型最相关的细胞亚群。结果显示,Scissor能够很好地区分肿瘤细胞和正常细胞,证明Scissor能够在大量细胞表型数据信息的指导下,从单细胞数据中准确识别大多数表型相关细胞。
随后,研究人员对黑色素瘤scRNA序列数据集进行了Scissor操作,以确定与ICB反应相关的T细胞亚群。在黑色素瘤中,Scissor发现了一个与免疫治疗反应正相关的低PDCD1/CTLA4和高TCF7表达的T细胞亚群,表明即使单细胞数据本身没有相关表型信息,Scissor分析仍能识别与特定表型相关的细胞亚群。
Scissor不仅适用于肿瘤数据的分析,对非肿瘤数据预测也具有很好的表现。最后,研究人员应用Scissor对阿尔茨海默症(AD)scRNA-seq研究中的三种脑细胞类型进行了分析,确定了三种与AD高度相关的脑细胞亚群,对理解AD的潜在发病机制、疾病诊断和治疗具有重要作用。除了在癌症和AD中的应用,Scissor在肌肉疾病单细胞数据集分析方面也有很高的应用潜力。
综上所述,Scissor可以从任何给定表型相关的单细胞数据中识别细胞亚群,从而将bulk和scRNA数据进行整合,弥补了scRNA测序深度不足/bulk检测精度不足的缺点。Scissor应用于肺癌scRNA-seq数据集,可识别出与生存恶化和TP53突变相关的细胞亚群;在黑色素瘤中,Scissor发现了一个与免疫治疗反应相关的低PDCD1/CTLA4和高TCF7表达的T细胞亚群。除了癌症,Scissor在肌肉疾病和AD方面的应用也很有效,从新的角度探索和解释了单细胞数据,为疾病机制提供新的思路,是一种很有应用前景的工具。
展望
虽然目前单细胞转录组价格已经有所降低,但是依然比较昂贵。除此之外,单细胞测序深度不足,导致其检测的基因数目较少,这也是其缺点之一。相较于此,单个样品的bulk-RNAseq价格就很便宜了,几百块钱即可,而且测的基因数目很多,所以一般的课题组很轻松就能做几十个样品甚至好几百样品的队列数据,而且在公共数据库里面比比皆是。那么,如果我们把大样品队列的常规转录组项目里面的结论去我们的小样品队列里面去验证,去辅助我们探索表型特异性单细胞亚群就变得十分有意义。
Scissor虽然功能强大,但是也有一些不足之处:1. 使用Scissor预测的符合标准的细胞(也就是Scissor+)数目过少,这样不利于发现低丰度的细胞;2. Scissor只能找出符合疾病表型的细胞,但是无法将这些细胞种类细分,如果根据单细胞注释的结果进行分析,那也失去了联合bulk-RNAseq的意义。但是有终归比没有好,任何事物都有两面性,扬其长而避其短才是王者之道。Immugent相信在未来肯定会开发出比Scissor更好的算法,让我们拭目以待!
好啦,本期分享到这就结束啦,我们下期再会~~~
[参考文献]
Sun D, Guan X, Moran AE, Wu LY, Qian DZ, Schedin P, Dai MS, Danilov AV, Alumkal JJ, Adey AC, Spellman PT, Xia Z. Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data. Nat Biotechnol. 2022 Apr;40(4):527-538. doi: 10.1038/s41587-021-01091-3. Epub 2021 Nov 11. PMID: 34764492; PMCID: PMC9010342.