超全总结--单细胞+空间转录组的整合分析方法总结

这一篇我们做一个详细的总结，周五了，疫情还没结束，父母也都老了，有时候真的感觉身为儿子实在不孝，常年在外，回家很少，家里有点事父母也不会跟我这个儿子说，小病小灾的也舍不得去医院看，都抗过去，不知道这会不会也是你的无奈呢？有时间多回家看看吧~~~~~

单细胞+空间转录组的整合分析方法总结

图片.png

f479ff2a0b6bd1edb961ec351df6d883.gif

4840d7249b9ce508d8e50ae21b5c0c2c.gif

目前scRNA-seq将每个转录物与单个细胞相关联，但关于这些转录物在组织中的位置信息丢失了；相反的，空间转录组学技术知道转录物的位置，却不知道是哪个细胞产生了转录物。因此，scRNA-seq与空间转录组学的整合可以产生组织中细胞亚群的高分辨率图谱。

来自美国的科研人员在《Nature reviews genetics》发表综述文章，回顾了整合scRNA-seq与空间转录组学技术研究的尝试和努力，包括新兴的整合计算方法，并提出了有效结合当前方法的途径。

整合scRNA-seq和空间转录组学研究的流程模式

scRNA-seq+空间组学整合分析的研究进展

目前已有整合空间转录组学和scRNA-seq数据分析的研究，提供了组织组成和功能的新见解。下表展示了相关的研究现状，包括正常的组织稳态和发育、肿瘤微环境、其他病变和损伤的微环境等方向。

解析scRNA-seq和空间转录组数据的研究

scRNA-seq+空间组学整合分析的计算方法

鉴于空间转录组学方法还不能在组织中产生深层单细胞分辨率的转录组图谱，能够成功整合单细胞和空间转录组数据的分析将有助于理解细胞类型分布的结构以及构成这种结构的细胞间通讯的假定机制。整合scRNA-seq和空间转录组数据有两种主要方法：去卷积（Deconvolution）和映射（Mapping）。去卷积旨在根据单细胞数据，从每个捕获点的mRNA转录物的混合物中分离出离散的细胞亚群；映射有两方面：将指定的基于scRNA的细胞亚型定位到HPRI图谱上的每个细胞和将每个scRNA-seq细胞定位到组织的特定生态位或区域。

图片.png

单细胞和空间转录组数据的整合策略

图片.png

去卷积：从单个捕获点中分离出离散的细胞亚型。去卷积有两种主要方法：推断一个特定spot的细胞亚型比例和对一个特定的空间转录组spot进行评分，以确定它与单个细胞亚型的对应程度。

基于推理的去卷积技术涉及估计每个细胞类型在特定捕获点的比例。这种形式的去卷积的方法之一是采用基于统计回归的模型，各种线性回归模型已被应用于解卷bulk RNA-seq混合物。

估计每个细胞类型在给定捕获点中的确切比例的补充方法是通过贝叶斯统计框架，将概率分布与scRNA-seq数据的基因计数分布相适应。其中SPOTlight 的基准测试策略是最彻底的：评估细胞类型检测的准确性、敏感性和特异性以及与真实情况的整体相关性。此外，通过HPRI可以获得更高分辨率的亚型空间定位的物理验证。

有许多基于富集分数的去卷积技术，例如Seurat 3.0和多模态交叉分析等；解决数据集不匹配的去卷积技术策略，例如SpatialDWLS等。

映射：以单细胞分辨率创建空间分辨率的细胞类型映射。就像去卷积一样，绘制图谱的第一步是基于scRNA-seq数据建立细胞亚型。然后，映射的主要挑战是将基于scRNA-seq的细胞类型从HPRI数据分配到每个细胞上。对14种已发表的算法进行系统评估，这些算法通过基于聚类的分析实现了映射的批量校正策略，确定了三种最有效地将scRNA-seq数据与单细胞分辨率空间数据集成的算法：LIGER、Seurat Integration（来自Seurat 3.0）和Harmony。这三种算法最终都是使用不同的方法将聚类集成到低维空间中，通过对聚类的群体检测得到细胞类型。

图片.png

将空间数据纳入细胞间通讯分析。细胞亚群之间的相互作用介导组织内稳态、发育和疾病。空间转录组学数据非常适合于评估由scRNA-seq计算的配体-受体相互作用的可靠性。预测参与细胞间通讯的配体-受体相互作用对的标准算法主要是结合scRNA-seq数据和已知配体-受体相互作用的数据库。有许多方法可以破译这种细胞间通讯机制。例如Giotto、SpaOTsc算法等。此外，空间数据可用于评估scRNA-seq图谱重建和估算的配体-受体相互作用，例如novoSpaRc算法。

scRNA-seq+空间组学整合分析的未来方向其他整合模式

目前，空间转录组学技术主要集中在通过下一代测序（空间条形码）或荧光标记（HPRI）来检测mRNA转录。然而，空间转录组学实验产生的组织切片的组织学图像往往没有被利用。目前已经开发了一些算法，例如基于大量的空间变异在组织结构水平上直观表现的前提，一个研究小组开发了一种深度学习算法ST-Net，可以预测每个空间条码捕获点叠加到组织结构上的102个基因的表达空间变化。此外，XFuse结合了空间条码和组织学切片来预测单细胞分辨率的表达。这些深度学习模型的Saliency图对于提取与转录组中单个基因的表达有关的新空间特征至关重要。除了改进去卷积和绘制图谱的算法外，一个需要关注的焦点是开发更多的深度学习模型，以帮助区分特定空间转录组的哪些特征是最有生物学意义的。

定义三维空间转录组和实时细胞追踪为未来的研究提供了新的领域。目前，对三维空间转录组的研究大多采用高密度切片，通过三维单分子荧光原位杂交数据进行计算重建或推断scRNA-seq细胞的位置。STARmap和ExSeq是新开发的方法，将HPRI与完整组织转化为水凝胶相结合，以保留扩增子的 3D 排列。

虽然可以描绘出整个发育或组织发病的时间过程的空间转录组，但空间转录组技术并不能实时监测细胞亚型的物理动力学。光学相干断层扫描已被用于跟踪肿瘤相关骨髓细胞的迁移，CellGPS已与正电子发射断层扫描一起用于跟踪携带放射性同位素的人类乳腺癌细胞。当与空间转录组学相结合时，这两种实时跟踪技术都可以应用于空间数据中感兴趣的细胞类型，以阐明环境中的细胞动力学，例如癌症免疫治疗期间的转移进展和免疫细胞动力学。

通过在空间上解析与分子生物学中心法则不可或缺的其他生物分子，超越时空转录组的解析，可以更深入地了解组织功能。例如DBiT-seq可以在同一组织上对蛋白质和mRNA转录物进行空间解析。基因组序列的三维原位成像、RNA的亚细胞分辨率以及核仁和RNA的三维染色质组织的同步成像都存在于单细胞尺度。它们有望应用于完整的组织，并彻底改变我们对中心法则机制如何在细胞的三维环境中发挥作用的理解，从而揭示发育轨迹和疾病（即癌症）的内部工作机制。

临床相关性

对病变组织和健康组织进行比较分析的空间转录组学研究已经开始阐明预后、最佳治疗和潜在的治疗靶点。然而，这样的研究在样本量上是有限的，到目前为止还处于探索阶段。为了加快数据生成的速度，分析可以集中在描述数量较少的驱动疾病相关表型的感兴趣区域。除了描述患者预后的趋势外，研究现有药物，尤其是重新利用的药物，如何影响疾病驱动细胞类型的时空基因表达模式，可能有助于深入了解潜在的治疗药物。在这方面，通过NASC-seq等方法监测mRNA转录对刺激的反应可能有助于更好地理解药物干扰如何影响病变细胞的空间转录组。一旦这些患者组织数据被整合，深度学习模型可以帮助识别与生存结果或治疗反应最相关的空间表达模式，潜在地突出有利的靶标，以便在治疗期间重现或补充干预节点。

随着更多空间转录组学分析的进行，解开确定的、与疾病相关的细胞类型及其基因模块将变得越来越具有挑战性。越来越多的细胞类型在组织中被识别和定位，Seurat Integration、Harmony 和 LIGER 等工具可能会升级以整合不同实验测定的数据，来确定是否在每个组织中始终观察到特定的细胞类型。此外，整合每个器官系统和疾病的空间转录组学数据将是有价值的，例如SpatialDB数据库、Allen Brain Atlas等。最终，更明确的疾病驱动细胞类型的空间转录组，特别是对于细胞功能特别依赖于原位环境和邻近细胞群的情况，可能产生更有效的生物学机制以用于治疗靶向。

检测空间转录组的技术正在迅速发展，因此没有单一的空间转录组学技术适合所有应用。根据所提出的生物学问题，实验方法可以将任何空间转录组学方法与scRNA-seq结合起来。除了开发增强的方法外，选择整合这些数据的算法是至关重要的，因为空间转录组学方法还不存在以单细胞分辨率、scRNA-seq深度和整个转录组覆盖率对组织进行空间解析的方法。这种整合的方法可以在空间上绘制发育和疾病中的特定细胞亚群，并阐明这些细胞亚群协同形成组织表型的机制。

计算方法在空间转录组学研究中的应用

空间转录组学数据分析工作通常包括多个阶段：第一步是数据预处理，通常包括质量控制、基因表达标准化、降维和细胞类型注释。可以通过空间分解、基因插补和标签转移进一步提高数据的丰富性。接下来可通过空间聚类和局部基因表达模式从数据中获得生物学见解，这将进一步促进空间可变基因的识别、细胞-细胞/基因-基因相互作用的推断和空间轨迹分析。此外，空间转录组学数据可用于帮助重建scRNA-seq数据中的空间位置。

用于空间分辨转录组学数据分析的统计和机器学习方法总结

SpatialDWLS

应用场景：Spatial decomposition（空间分解）

算法：Weighted least squares（加权最小二乘）

优点：比基准工具的精度更高、速度更快

缺点：估计稀有细胞类型比例的偏差较大

SPOTlight

应用场景：Spatial decomposition（空间分解）

算法：Seeded NMF regression（基于种子的非负矩阵因子分解回归）

优点：跨多个组织的高精度

缺点：没有将捕获的位置信息合并到模型空间分解中

RCTD

应用场景：Spatial decomposition（空间分解）

算法：Poisson distribution with MLE（泊松分布的最大似然估计）

优点：系统地模拟平台效应

缺点：假设平台效应在细胞类型之间共享

stereoscope

应用场景：Spatial decomposition（空间分解）

算法：Negative binomial distribution with MAP（具有最大后验概率的负二项分布）

优点：利用完整的表达谱而不是选定的标记基因来实现更高的准确性

缺点：需要更深的测序深度

DSTG

应用场景：Spatial decomposition（空间分解）

算法：Semi-supervised GCN（半监督图卷积神经网络）

优点：比基准工具更精确

缺点：高度依赖于建模图卷积神经网络的链接图的质量

ProximID

应用场景：Cell-cell/gene-gene interactions（细胞-细胞/基因-基因相互作用）

算法：Cluster label permutations（聚类标签排列）

优点：不需要物理分离 FISH 图像中的细胞

缺点：无法检测到没有物理连接的相互作用

MISTy

应用场景：Cell-cell/gene-gene interactions（细胞-细胞/基因-基因相互作用）

算法：Multi-view framework to dissect efects related to CCI（剖析与细胞-细胞互作相关影响的多视角框架）

优点：1.不需要细胞类型标注；2. 利用完整的表达谱

缺点：提取的相互作用不能直接视为因果关系

stLearn

应用场景：1.Cell-cell/gene-gene interactions（细胞-细胞/基因-基因相互作用）；2. Spatial clustering（空间聚类）；3. Cell trajectories inference（细胞轨迹推断）

算法：A toolbox containing integrated algorithms from multiple studies（包含来自多个研究的集成算法的工具箱）

优点：从原始输入到深入下游分析的简化包

缺点：仅与某些 ST 平台兼容

SVCA

应用场景：Cell-cell/gene-gene interactions（细胞-细胞/基因-基因相互作用）

算法：Gaussian processes（高斯过程）

优点：同时适用于RNA-seq和蛋白质组学数据

缺点：没有考虑特定于技术的噪音

GCNG

应用场景：Cell-cell/gene-gene interactions（细胞-细胞/基因-基因相互作用）

算法：GCN（图卷积网络）

优点：可以推断新的细胞间互作并预测新的功能基因

缺点：当应用于不同的数据集时，超参数需要重新优化

Seurat V3

应用场景：1. Gene imputation（基因插补）；2. Spatial location reconstruction for scRNA-seq data（scRNA-seq数据的空间位置重建）；3. Others（其他）

算法：Analysis pipelines with integrated algorithms（集成算法的分析管道）

优点：1. 一个全面的数据分析管道；2. 可应用于多组学数据集，包括转录组、表观基因组、蛋白质组和空间分辨率的单细胞数据

缺点：仅适用于某些类型的ST平台

LIGER

应用场景：1. Gene imputation（基因插补）；2. Spatial location reconstruction for scRNA-seq data（scRNA-seq数据的空间位置重建）

算法：Integrative NMF（整合性非负矩阵分解）

优点：嵌入同时维护通用和特定于数据集的术语

缺点：与基准工具相比，内存密集

SpaGE

应用场景：1. Gene imputation（基因插补）；2. Spatial location reconstruction for scRNA-seq data（scRNA-seq数据的空间位置重建）

算法：Domain adaptation model to align ST and scRNA-seq data to a common space（将 ST 和 scRNA-seq 数据对齐到公共空间的域适应模型）

优点：在大型数据集中，内存使用更少，速度比基准工具更快

缺点：模型中只包含两个数据集中的共同基因

stPlus

应用场景：Gene imputation（基因插补）

算法：Autoencoder model for dimensional reduction to map ST and scRNA-seq data into a shared space（将ST和scRNA-seq数据映射到共享空间的降维自动编码器模型）

优点：1. 在细胞类型聚类方面比基准工具有更高的准确性；2. 在应用于大型数据集时，比除SpaGE以外的大多数基准工具的时间和内存使用量更少

缺点：仅适用于基于图像的测序平台的数据

gimVI

应用场景：1. Gene imputation（基因插补）；2. Dimensional reduction and feature extraction（降维和特征提取）

算法：Variational autoencoders for dimensional reduction to map ST and scRNA-seq data into a shared space（具将ST和scRNA-seq数据映射到共享空间的降维变异自动编码器模型）

优点：在模型中生成平台特定的模式，以获得更好的生物可解释性

缺点：在大型数据集中比基准测试工具慢

Harmony

应用场景：1. Gene imputation（基因插补）；2. Spatial location reconstruction for scRNA-seq data（scRNA-seq数据的空间位置重建）

算法：Maximum diversity clustering and mixture model based batch correction（基于最大多样性聚类和混合模型的批量校正）

优点：能以较高的精度估算出低丰度的基因

缺点：嵌入物缺乏生物学上的可解释性

DEEPsc

应用场景：Gene imputation（基因插补）

算法：ANN（人工神经网络）

优点：一种专门为基因插补设计的系统自适应方法

缺点：没有将空间信息合并到计算中

Trendsceek

应用场景：Identify SVGs（识别空间变异基因）

算法：Marked point process（标值点过程）

优点：不需要指定一个分布或一个感兴趣的空间区域

缺点：每次只限于单个基因，计算量大

SpatialDE

应用场景：Identify SVGs（识别空间变异基因）

算法：Gaussian process regression（高斯过程回归）

优点：可以检测时间和周期基因表达模式的SVGs识别

缺点：不识别具有不同表达模式的空间区域，计算密集型