空间分辨转录组分析可以揭示组织结构和环境依赖性细胞-细胞或细胞-环境相互作用的分子机制。由于目前的技术限制,以单细胞分辨率获得全基因组空间转录组是一项挑战。近日,《Science Advances》发表了一个名为iSpatial的新算法,通过整合空间转录组和单细胞转录组数据集来推导整个转录组的空间模式。
iSpatial是什么?
基于FISH和原位测序的ST技术,如MERFISH、seqFISH、osmFISH和STARmap,可以以单细胞分辨率同时揭示基因表达和位置,但预定义的基因靶点有限(下图左)。另一方面,scRNA-seq可以无偏地描绘整个转录组,但不提供空间信息(下图中间)。通过整合两种方法的单细胞基因表达谱(逐个细胞的基因矩阵),可以根据scRNA-seq数据推断出每个空间图谱细胞中非目标基因的缺失信息,从而得到图谱细胞的全基因组空间表达信息(下图右)。
iSpatial是一种基于R的生物信息学工具,它整合了scRNA-seq和ST谱数据,以高空间分辨率推断每个基因的表达模式。
iSpatial的性能测试
开发团队使用不同组织和技术产生的多个ST数据集测试了iSpatial。与其他现有方法相比,iSpatial在预测基因表达和空间分布方面具有更高的准确性。此外,它还减少了原始数据集中的假阳性和假阴性信号。同时它对来自不同组织和不同技术的数据集具有广泛适用性。
在所有的应用中,iSpatial能够将空间信息从原始ST数据中预定义的基因小组扩展到整个转录组,这为下游分析带来了一些好处。首先,它能够系统地识别SVG。在大脑和肝脏的数据集中,发现在iSpatial归纳之后SVG的数量从几百个增加到几千个。第二,iSpatial能够发现整个组织的不同空间表达模式,这是通过SVG的空间聚类分析实现的。许多这样的无偏识别的表达模式是与生物相关的。例如,开发团队发现SVG组在大脑皮层中被组织成层状结构,在纹状体中表现出核心/外壳富集,表明基因表达与组织结构之间存在紧密的关系。第三,iSpatial支持对SVG或SVG亚群进行需要足够基因数量或高统计能力的生物信息学分析(如KEGG)。例如,通过推断肝脏中转录体的空间模式,发现富集在CV和PV中的基因涉及不同的KEGG通路,这表明区域特定的基因表达和功能之间可能存在联系。
iSpatial在预测空间表达模式的准确性方面优于现有工具。
为了评估iSpatial的性能并与现有的工具进行比较,开发使用了从Slide-seq V2生成的小鼠海马数据集。通过将推断出的表达模式与Slide-seq(验证数据组)确定的 "真相 "进行比较发现iSpatial可以高度准确地预测空间表达模式;iSpatial可以 "增强 "原始数据中没有很好检测到的信号。
随后开发团队使用Slide-seq数据集进一步比较了iSpatial与另外两个现有工具Liger和Seurat在同一任务上的性能:与iSpatial相比,从Liger和Seurat获得的空间模式在较高背景下更模糊;在不同表达水平的所有基因组中,iSpatial表现出明显高于其他方法的相关系数和较低的RMSE,而且预测的准确性与基因表达水平呈正相关。此外,细胞类型特异性表达的基因表现出更高的预测准确性。这一结果表明,iSpatial在功能相关的基因上实现了更高的预测准确性。当比较从原始Slide-seq数据识别的SVG和从不同方法推断的数据识别的SVG时发现iSpatial在三种方法中对SVG具有最高的预测能力。
开发团队还使用了成年小鼠冠状半脑切片的Stereo-seq数据来衡量iSpatial的性能。结果显示,iSpatial在验证数据集上取得了比其他方法更高的相关性。
通过将iSpatial应用于来自不同组织(海马、大脑半球、皮层、纹状体和肝脏)和用不同技术(Slide-seq、Stereo-seq、MERFISH和STARmap)生成的数据集,在每个数据集中都发现了已知和以前未知的空间表达模式,表明iSpatial广泛适用于分析不同ST数据集。
iSpatial可以减少由不同技术产生的不同组织的原始ST数据中的FP和FN信号。
iSpatial实现了整个转录体水平的空间分析:在STARmap皮层数据集和MERFISH纹状体数据集平行分析的结果表明iSpatial推断的数据明显增加了检测到的SVG的数量;iSpatial可以帮助识别生物学相关的空间基因表达模式。
为了评估iSpatial在其他组织(除脑组织之外)数据集中的性能,开发团队分析了Vizgen MERFISH小鼠肝脏图谱数据集,iSpatial成功地推断出每个单个细胞中平均6000多个基因的表达,比原始数据增加了20倍以上。推断出的空间模式与现有知识基本一致。在iSpatial推断表达谱的基础上进一步生成了UMAP,发现细胞在UMAP上的位置与它们沿CV-PV轴的原位分布密切相关,显示了沿CV-PV轴的梯度表达谱。值得注意的是,尽管Liger和Seurat也能揭示类似的梯度表达模式,但三种方法的比较表明,iSpatial取得了更高的特异性和准确性,特别是对具有更多空间限制的表达模式的基因。总之,iSpatial可以克服各种ST分析的目标基因数量有限的问题,在不同组织中达到全转录组水平的高精确度。
iSpatial的一个潜在限制是它需要相应的ST和scRNA-seq数据,而这些数据可能并不总是可用。然而,鉴于ST和scRNA-seq技术的快速发展,以及在大型单细胞联盟和ST方面的持续努力,预计iSpatial将被广泛用于帮助理解不同器官的复杂组织在正常和疾病状态下的结构和功能异质性的分子基础。
iSpatial的R包、如何使用iSpatial整合纹状体scRNA-seq和MERFISH数据来推断基因组范围内空间表达模式的教程均可以在如下链接获取: https://github.com/YiZhang-lab/iSpatial.
首发公号国家基因库大数据平台
参考文献
Zhang C, Chen R, Zhang Y. Accurate inference of genome-wide spatial expression with iSpatial. Sci Adv. 2022 Aug 26;8(34):eabq0990. doi: 10.1126/sciadv.abq0990. Epub 2022 Aug 26. PMID: 36026447; PMCID: PMC9417177.
图片来源于Science Advances官网和参考文献,如有侵权请联系删除。