muscat：专注于多样本多分组的单细胞差异分析

前言

差异表达分析是单细胞RNA测序（scRNA-seq）数据分析的一个关键步骤，是后续很多高级分析的基石。在早期的研究中，差异表达分析主要用于识别不同亚群之间的表达差异，以确定各亚群的标记。然而，随着多样本、多组别的scRNA-seq数据集越来越多。因此，传统的单细胞差异分析工具可能不太适合检出此情况中更有价值的差异基因，而样本级别的差异分析可能更适合这样的情形。

我们今天要介绍的主角：muscat，就是适用于对多样本、多组别的scRNA-seq数据进行差异分析工具，其更加关注如何解释样本间和细胞间的变异性，并从中得出可以推广到样本层面的结论，即差异状态（differential state，DS）分析。为了探索目前什么样的统计方法是最适合这类分析的，这项研究模拟多样本多状态的scRNA-seq数据集，并对16种不同的DS分析方法进行了评估。这些方法包括基于细胞级别的混合模型和基于聚合伪批量数据的方法。

那么接下来，让我们先通过对应的文献一起学习一下这项研究（ps：后续还会有代码实操部分对它的功能进行介绍）。

主要内容

一、问题起源

在学习这项研究的具体结论之前，我们先搞清楚以下两个问题：什么是差异状态（DS）分析？以及为什么基于细胞级别的混合模型和基于聚合伪批量数据的方法可以检测细胞的状态变化？

1. 什么是差异状态分析？

DS分析的三个关键方面：

能够检测特定亚群的变化。
与聚类和亚群分配的分析正交。即DS分析与聚类或细胞亚群分配分析之间具有独立性和互补性。独立性：DS分析的结果不依赖于聚类或亚群分配分析的结果；互补性：DS分析的结果与聚类或亚群分配分析的结果相互补充。与聚类或亚群分配不同，DS分析关注的是细胞状态的动态变化，而不是静态的细胞类型，DS分析可以揭示这些细胞在不同条件下的变化。
差异状态（DS）分析与跨条件下亚群的差异丰度（DA）分析是两种不同的分析。DS分析更关注细胞的功能状态和行为的变化而DA分析更关注细胞亚群的数量或丰度的变化。

2.为什么基于细胞级别的混合模型和基于聚合伪批量数据的方法可以检测细胞的状态变化？

相比于bulk RNA-seq数据，scRNA-seq数据包含着更为丰富的信息，每个细胞的基因表达模式往往可以反应出细胞的状态（静息或活化），这在bulk RNA-seq数据中常常被掩盖。基于细胞级别的混合模型和基于聚合伪批量数据的方法可以帮助我们挖掘类似结论。

基于细胞级别的混合模型推断细胞状态变换

我们首先对scRNA-seq数据进行降维聚类分群，对于一个我们感兴趣的特定亚群，我们可以使用混合模型对每个细胞的基因表达建模。具体来说，我们可以假设静息状态的细胞的基因表达服从一个分布，而活化状态的细胞的基因表达服从一个不同的分布，从而推断每个细胞处于活化状态的概率。值得注意的是，相比于伪批量的方法，基于细胞级别的混合模型通常需要更复杂的算法，并且可能需要更多的计算资源。
基于聚合伪批量数据的方法推断细胞状态变换

同理，我们首先对scRNA-seq数据进行降维聚类分群并聚合为伪批量数据，也就是将来自同一亚群和同一条件的所有细胞的基因表达数据进行合并，对于一个我们感兴趣的特定亚群，这个亚群在对照组中的细胞大多数是静息状态，而在疾病组中的细胞大多数是活化状态。在这种情况下，我们可能会观察到，这个亚群在疾病组的伪批量数据中，与细胞活化相关的基因的表达水平比在对照组中的伪批量数据中要高。

那么，在这个例子中，我们为什么不直接在单细胞层面比较疾病组和对照组与细胞活化相关的基因表达的水平差异呢？主要原因可能有两个：1、直接在细胞层面进行比较会受到一些挑战。由于单细胞数据固有的噪音、drop out的存在或样本中细胞状态存在较大的异质性等原因阻碍着我们对细胞状态转变的识别。2、伪批量处理还可以使我们更容易地使用一些针对bulk数据的分析工具，如edgeR或DESeq2等。

二、一个灵活可靠的模拟模型框架

在本研究中，作者基于参考数据集开发了一个模拟框架，模拟了scRNA-seq数据的各种特性，并用它评估了16种DS分析方法，涵盖了广泛的模拟情景，包括样本数量的变化、每个亚群的细胞数量的变化，以及引入的差异表达模式的大小和类型。首先，作者使用负二项分布（NB）模拟scRNA-seq数据集，参考数据集有两套：（i）来自8名红斑狼疮患者的外周血单个核细胞（PBMCs）的scRNA-seq数据，这些数据是在IFN-β治疗前后6小时测量的（总共16个样本），其中的细胞已经被标注为各种免疫亚群；以及（ii）来自8只被分为载体和LPS治疗组的小鼠的大脑皮层组织的单核RNA-seq数据。接下来，作者通过增加平均表达的变化（DE）、低和高表达状态组分的比例变化（DP）、差异模态（DM）或比例和模态的变化（DB）模拟细胞状态的变化。不受状态变化影响的基因要么等效表达（EE），要么在两种条件下由相等比例的细胞以低和高表达状态表达（EP）。通过调整参数（亚群特异基因比例、DS基因比例、logFC值等）可以控制模拟数据集中的亚群特异性和状态变化。总的来说，作者构建了一个灵活可靠的模拟单细胞RNA测序数据的框架，为后续测试16种不同的DS分析方法提供基础。

image.png

三、评估16种DS分析方法的性能

对于基于聚合的方法，作者考虑了各种输入数据（对数转换的表达值，残差，计数）、汇总统计（均值，总和）和差异测试方法（limma-voom，limma-trend，edgeR）的组合。对于非聚合的方法，作者考虑了四种方法：混合模型MM、MAST，scDD、AD。MAST用于对数化的count矩阵；AD测试和scDD用于对数化的count矩阵和标准化残差（vstresiduals）。对于AD测试，作者考虑了两种不同的方法来测试分布，替代假设样本在样本方面或组方面有所不同。接下来，作者评估了不同方法在检测单细胞RNA测序数据中的差异状态方面的性能。总体而言，所有方法对DE类别的基因表现最好，其次是DM、DP和DB。对于DE、DM和DP，大多数伪批量方法和细胞水平MM模型表现良好。为了研究亚群大小对DS检测的影响，作者使用每个亚群样本20-400个细胞的子集，在包含10% DE基因的模拟上运行了方法。对于大多数方法，FDR控制随细胞数量的变化而剧烈变化，而所有方法的TPR随着细胞数量的增加而改善。对于基于聚合的方法，大约100个细胞足以达到不错的性能；特别是从20个细胞增加到100个细胞（每个亚群每个样本）会有相当大的性能提升，但从200增加到400个细胞只有适度的增益。

image.png

为了研究整体方法一致性，作者在每个DS类别的五个模拟重复实验中，将每种方法返回的排名最高的DS检测（FDR < 0.05）相交。结果表明，方法之间的整体一致性很高，共同识别的DS基因确实存在真实差异，而被某个方法单独识别的DS基因更有可能为假阳性发现。在运行时间上， MMs是最慢的，其次是AD测试、MAST，然后是scDD。基于聚合的DS方法是最快的。

image.png

四、LPS处理小鼠皮质的DS分析

为了探究LPS如何影响大脑皮质，作者使用snRNA-seq研究外周LPS给药对小鼠前额叶皮质中所有主要细胞类型的影响，识别在神经细胞和非神经细胞中受LPS影响的基因和通路。在这里，作者使用伪批量和edgeR将DS分析框架应用于四个对照（载体）和四个LPS处理的小鼠的snRNA-seq数据。首先，作者将snRNA-seq注释为8个亚群：星形胶质细胞，内皮细胞，微胶质细胞，髓鞘形成细胞前体细胞（OPC），脉络丛室管膜（CPE）细胞，髓鞘形成细胞，兴奋性神经元和抑制性神经元。作者在至少一个亚群中鉴定出915个具有DSs（FDR < 0.05，∣logFC∣ > 1）的基因，其中751个只在一个亚群中检测到（补充图13）。由于仅依赖阈值容易产生偏见，接下来作者将所有DEGs并集的FC值进行聚类。结果表明，一组明显的基因集（共识聚类ID 3）在所有亚群中都被上调，并且富集响应（外部）生物刺激、防御和免疫反应相关功能。接下来，作者计算了效应系数，总结了每个细胞在多大程度上反映了整体的倍数变化。对于内皮细胞和胶质细胞，效应系数分布在载体和LPS样本之间明显分离，表明大多数细胞受到影响。相反，神经元分布的大量重叠表明只有少数细胞受到影响。

image.png

五、DS方法性能总结

最后，作者对这16种DS检测的敏感性和特异性，p值分布的均匀性，模拟和估计的logFCs之间的一致性，适应复杂实验设计的能力，以及运行时间等方面进行了评估。

image.png

小结

目前，我们对scRNA-seq数据进行差异分析时，更多关注的是细胞水平的差异，而较少关注样本水平，这导致我们得到的差异结果主要是围绕DA（差异丰度）的相关结果。这项研究的作者引入了DS（差异状态）的概念，即关注细胞的功能状态或行为的变化；并且基于这个概念，开发了一个灵活的DS模拟框架。这个框架评估了16种DS分析方法，使研究人员可以使用这个框架识别scRNA-seq中更可靠的DS结论。为了让大家可以更全面地了解到这个工具，我们将在后续的推文中介绍muscat的代码实操部分。

今天的分享就到这里啦，让我们下期再会~

[参考文献]

Crowell HL, Soneson C, Germain PL, Calini D, Collin L, Raposo C, Malhotra D, Robinson MD. muscat detects subpopulation-specific state transitions from multi-sample multi-condition single-cell transcriptomics data. Nat Commun. 2020 Nov 30;11(1):6077. doi: 10.1038/s41467-020-19894-4. PMID: 33257685; PMCID: PMC7705760.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,585评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,283评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 142,760评论 0赞 324
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,461评论 1赞 266
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,280评论 4赞 357
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,268评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,656评论 3赞 385
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,322评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,629评论 1赞 293
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,691评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,445评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,299评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,694评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,982评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,244评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,642评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,829评论 2赞 335

muscat：专注于多样本多分组的单细胞差异分析

前言

主要内容

一、问题起源

1. 什么是差异状态分析？

2.为什么基于细胞级别的混合模型和基于聚合伪批量数据的方法可以检测细胞的状态变化？

二、一个灵活可靠的模拟模型框架

三、评估16种DS分析方法的性能

四、LPS处理小鼠皮质的DS分析

五、DS方法性能总结

小结

推荐阅读更多精彩内容