单细胞组学数据,例如转录组(scRNA-seq),表观组(scATAC-seq)记录了细胞间的分子水平的差异性和相互作用,使生物学家得以深入了解复杂生物生态系统的单个细胞组成部分。随着相关数据的积累,利用已有标记数据间的关系,去对新数据集进行预测成为可能。一篇6月22日发表于 Nature Communications 的论文,指出图卷积神经网络能够在该任务上取得最好的表现。
论文题目:scGCN is a graph convolutional networks algorithm for knowledge transfer in single cell omics
论文地址:https://www.nature.com/articles/s41467-021-24172-y
简介
单细胞转录组测序得到的无标注数据,可以通过和已有的带标注的数据进行相似性比对,给出标签;标签可以是细胞类型、细胞发育中的状态、细胞功能或细胞间的通信模式。鉴于单细胞数据的爆炸性增长,迫切需要利用现有的具有良好标注的数据集作为参考,以确保数据的注释是可靠并一致的。
通过单细胞数据的知识迁移,可找出带标签的参考单细胞数据中不同标签间的拓扑关系,并将标签转移到新生成的数据集中,从而为新数据分配细胞级标注。
然而,现有的数据集和新生成的数据集往往是取材于不同的组织和物种、在不同的实验条件下、来自不同的平台、包含不同的组学类型。这使得单细胞领域的知识迁移方法,必须能够在适应不同实验环境带来的差异,捕捉到不同生物组织间的内在差异。
常用的单细胞知识迁移,使用的模型是Seurat V3,它以某一个数据为锚进行的;而另一方法Conos,则是通过将已知的新的样本的成对比对,生成一个联合图表示,将标签从已知样本传播到新样本上,而CHETAH 为未标注数据,自上而下的构建了一个分类树,所有这些方法,都只从单个细胞中提取共享的信息,而忽略了细胞之间的高阶关系,从而导致其分类效果较差。
现有数据和新生成的数据往往来自于不同组织和物种,在不同的实验条件下,由不同的平台生成,有着不同的组学类型。因此一个可靠准确的知识转移方法需要解决以下挑战:
- 单细胞数据独特的技术问题,如dropouts和dispersion。
- 由于操作人员、实验方案和技术变化而产生的批次效应(batch effect)。
- 与不同组织、物种和分子层相关的内在生物学差异,如RNA-seq和ATAC-seq。
而图卷积网络(Graph Convolutional Networks,GCN)能够捕获这种拓扑细胞关系。最近,GCN及其相关方法已成功应用于单细胞和疾病领域,这证明了包括GCN在内的通过学习细胞的高阶表示和拓扑关系的方法能够提升模型性能。
因此,作者提出了基于图的模型——scGCN,它能够可靠并可重复地进行跨研究的单细胞数据集集成和转移标签,将在以前研究中从特征良好的数据集学习到的知识转移到目前的研究中。作者使用了来自不同组织、物种、测序平台和分子层(如RNA-seq和ATAC-seq)的单细胞组学数据集,实验证明scGCN的准确性和可重复性优于其他方法。并且作者提供了scGCN的软件,软件兼容了各种单细胞数据集,可以准确地进行细胞类型的识别。
scGCN概述
从现有单细胞数据集学习到的知识通常称为细胞标签,包含细胞类型、发育状态、激活状态、细胞功能和信号传导模式等。scGCN以表征良好的单细胞数据作参考,通过半监督学习在查询数据集中推测这种细胞级知识,即标签转移。
单细胞组学的数据集,都可以看成是一个二维矩阵,横轴是基因,纵轴是标签。在数据预处理的步骤中,研究人员先找出数据中差异最显著的基因,对已标签数据集和新数据集分别正则化后进行数据降维。之后使用典型关联分析(Canonical Correlation Analysis),来计算数据集间的点与点之间的相关性;之后再通过对相关矩阵计算互近邻(mutual nearest neighbor),定义数据集内部和跨数据集的距离。通过上述过程形成的图,就是scGCN的数据输入(下图左半边所示)。
通过预处理,将稀疏的原始数据集转变为包含跨数据相关信息的映射图,这使得在参考数据集和未知数据集之间共享信息,识别标签间相互关系,并迁移到未知数据集上成为可能。之后通过图卷积神经网络,将其映射到隐空间后,可以使用半监督学习的方法,去预测未知数据集上的标签。
实验结果(scGCN的效果明显优于已有方法)
作者将scGCN与其他方法(Seurat v3、Conos、scmap和CHTAH)进行基准测试来评估scGCN的性能。对于定量基准,作者使用了10个有不同细胞数量、组织、物种和测序技术的scRNA-seq数据集来代表细胞标签转移的不同场景和挑战。对于每个数据集,作者随机选取了50%的细胞作为参考数据,剩余50%作为查询数据。将查询数据中正确预测的细胞占所有细胞的比例定义为准确度得分(Acc),使用Acc作为评估每种方法性能的指标。实验结果如图2,scGCN全面优于其他方法,取得了最高的准确率(mean Acc=91%)。(可以看到相比已有的方法,scGAN的准确性都优于或等于之前的方法)。
图2. 数据集内标签转移的性能
◆跨平台数据集标签转移的性能
由于新兴的单细胞数据集是由不同实验平台生成的,所以作者测试了scGCN在不同平台的数据集之间转移标签的准确度。作者使用了12对参考-查询数据集,每一对都使用了不同的scRNA-seq技术进行分析。结果显示,scGCN的准确度得分(mean Acc=87%)始终高于Seurat v3 (mean Acc = 82.2%)和Conos (mean Acc = 82.3%),明显优于scmap (mean Acc = 66%) 和CHTAH (mean Acc =58%)。
图3. 基于12个跨平台数据集的scGCN算法的性能
◆跨物种数据集标签转移的性能
接下来,作者将方法用于测试4对参考-查询数据集,每对数据集由小鼠细胞和人体组织细胞组成。作者首先应用五种方法对四对数据集中的查询数据进行标签识别。然后,比较了使用不同方法聚合的参考-查询数据的细胞的可视化(如图4a),结果显示只有在使用scGCN生成的汇总数据中,UMAP对四种情况的预测都能清楚地识别出细胞亚群(图4b)。
图4. 基于四种跨物种数据集的scGCN方法的性能
◆跨组学类型数据集标签转移的性能
最后,作者在不同组学类型的数据集上对scGCN、Seurat v3和Conos算法进行了测试,使用四个开放的可访问配对数据集,以scRNA-seq数据作为参考数据,scATAC-seq数据作为查询数据。使用两个评价指标——批次混合熵(batch mixing entropy)和轮廓系数(silhouette coefficient)。批次混合熵值越高,不同批次的细胞混合越好,而scRNA-seq和scATAC-seq数据被视为两个批次。轮廓系数越大,细胞类型间的差异越大,细胞类型间的方差越小。实验结果表明,scGCN拥有最高的混合熵值(图5a)和轮廓系数(图5b)。
图5. 使用四对交叉组学数据集的scGCN方法的性能
4结论
从技术角度来看,scGCN的优势在于:
- scGCN同时使用特征、图形结构和参考标签来解决数据集之间的批次效应、协议差异和其他内在差异。
- scGCN以半监督学习的方法进行标签转移,比其他无监督学习的方法更有前景。
- 第三,在每个层中,SCGCN非线性地传播来自混合图中的相邻细胞的特征信息,学习拓扑细胞关系并通过考虑细胞之间的高阶关系来提高转移标签的性能。
尽管scGCN算法性能全面优于四种常用算法(Seurat v3、Conos、scmap和CHTAH),它依旧可以从几个方面进行改善:
- scGCN有一些AI模型的局限性,包括AI模型的黑盒子性质。这些问题可以通过下游分析来解决。
- scGCN作为一种图模型,可以通过改进图形构造来提升模型性能。
虽然scGCN在可解释性上有所欠缺,不能找出区分不同标签的关键基因,其分类效果也可进一步提升。但该方法的成功证明了图卷积神经网络这一快速发展的方法,可应用于单细胞组学分析。
生活很好,有你更好~~