一、使用共享特征执行成对细胞匹配:在适当变换、归一化和批处理之后,对共享特证使用奇异值分解,基于简化矩阵的皮尔逊相关性构建跨数据距离矩阵。然后通过解决线性分配问题来发现初始细胞-细胞配对,即探索两个细胞集合之间的距离最小化单射映射
二、(1)初始匹配对齐数据集(2)CCA分析将两个数据集的共享和独特特特征投影到公共空间,投影结合了蛋白质组特征之间不共享的隐藏相关性
1、(1)规范分数获取跨数据集合距离(2)通过新距离的线性分配来获取精细匹配(3)MARIO找到最佳的凸组合权重来插值初始匹配和精细匹配
2、插值匹配之后,匹配性测试,确定用户选择用于集成数据集是否适合此类联合分欣
首先评估了MARIO
(1)健康人类骨骼单细胞的两个独立数据集上面的性能(CITE-seq数据,包含29007细胞,29个标记物质的抗体组染色,基于质谱cytop数据,包含有102977细胞,32标记物的抗体组染色,共有12标记)
(2)MARIO成功匹配了并对其了这两个数据集,并整合保留了复杂的数据格式,共享低级注释和每个数据集预先存在注释原始细胞类型注释的最初细胞类型注释在MARIO集成高度保守
(3)模拟跨数据集的独特抗体面板设计,模拟现实数据中固有的噪声的变化,模拟数据集之间细胞类型组成的波动,展示了方法的鲁棒性
3、跨物种分欣展示物种和刺激特异性反应
接着对生物学意义进行说明:
对三个物种和两种刺激条件的四个CyTOF数据集进行了MARIO匹配,包括(1)受到H1N1病毒攻击的人全血细胞,包括42marker(2)IFN24刺激的人全血细胞
(3)IFN24刺激全血细胞均包含了40个marker,(4)IFN24刺激猴全血细胞,有39个marker
展示了细胞类型存在高度一致性,细胞类型分配准确
MARIO进行稳健匹配和整合有机会观察不同类型和数据集合表达模式的细微变化。可以看到在感冒攻击和IFN刺激之后,人血细胞中CD4 T细胞的增值增加,以Ki-67上调为标志,但在刺激NHP血细胞之后没有检测到对应的增值增加,受到流感的人类参与者相比,与IFN处理之后人类和NHP样本中自然杀伤细胞群和NHP样本中自然杀伤细胞群中pSTAT3的表达上调,所有样本中所有细胞类型p38表达上调,反映了p38在细胞类型炎症和应激期间的保守功能
4、匹配进行精确的组织结构重建
高度准确的细胞匹配和整合推断单个细胞内转录本的空间定位,eg对小鼠脾细胞的基于抗体的CODEX成像(28中蛋白质标记)空间组学数据以及CITE-seq(206中蛋白质标记)数据进行分析
MARIO准确匹配了细胞类型,可以观察到两个不同技术注释的细胞类型的高度一致空间组织,以及与空间相对应单细胞转录本表达水平的清新分布模式。MARIO匹配对CODEX解忻的这些B细胞亚型内差异表达准了本进行详细分欣,揭示反映表型的独特转录程序
5、多组学多组学图谱
用54标记的CODEX成像对23个体的COVID-19个体76肺组织区域进行分欣,观察到了CITE-seq核CODEX中巨使细胞的丰度,两项抗体研究的对句式细胞进行高粒度稳健匹配和随后的功能研究。句式细胞分为两个亚型生物功能特征。
https://github.com/shuxiaoc/mario-py
使用部分共享特征匹配单个细胞;多模态单细胞蛋白质数据集合匹配和整合;跨物种揭示物种和特异性反应;组织结构重建;多组学分子图谱