Nat Biotech| AI用单细胞数据优化细胞分类
原创 苏安 图灵基因 2022-06-22 08:22 发表于江苏
收录于合集#前沿生物大数据分析
撰文:苏安
IF:54.98
推荐度:⭐⭐⭐⭐⭐
亮点:
研究团队提出了一种计算算法SCAVENGE,它以单细胞分辨率将因果变异映射到其相关细胞环境。这个方法不仅为单细胞分辨率下实现功能变异的洞察提供了一个框架,而且还带来了新的启发,即我们可以最大限度地利用单细胞基因组数据进行推断。
通过将全基因组与单细胞基因组图谱相结合研究,我们可以更深入地了解疾病遗传变异的机制。近期,在Nature biotechnology杂志上发表了一篇名为“ Variant to function mapping at single-cell resolution through network propagation”的文章,本文的研究人员建立了一种计算算法,这个算法可以利用基因组数据,在单细胞分辨率下将基因组之间因果关系进行呈现,以优化在单细胞分辨率下对特定细胞的功能和遗传关联的推断,大大促进了对疾病遗传变异的研究。
作者为我们介绍了SCAVENGE的原理,SCAVENGE是通过共定位来识别表型富集最多的细胞,并探索细胞到细胞网络的传递关联,为每个细胞分配一个概率,代表细胞通过网络传播与那些表型丰富的细胞的相关性。对于给定的遗传性状/表型,通过整合精细映射变异的PP和scATAC-seq谱来计算每个细胞的偏倚校正富集统计量,排名靠前的细胞被选为种子细胞。随后构建M-kNN图以表示细胞 - 细胞相似性,并将种子细胞投影到该细胞间图上,最后进一步缩放和归一化网络传播评分,以获得代表每个单个细胞感兴趣的性状/表型相关性的每细胞SCAVENGE TRS。图1.SCAVENGE 方法和应用概述。
为了评估SCAVENGE的强大功能和准确性,作者首先在模拟的scATAC-seq数据集(方法)上测试了它的性能,结果表明只有一小部分模拟细胞使用传统的共定位方法呈现出准确的性状相关相关性,其中这些细胞主要分布在排序的细胞组的顶部和底部。SCAVENGE大大增强了性状相关细胞的发现,准确性从0.72提高到0.97,特别是以前显示中等富集的细胞的准确性提高。这些实验数据还表明,SCAVENGE 对各种参数都很可靠,包括所选种子单元的数量、用于图构建的邻居数量、基线数据中的读取次数以及数据噪声水平的变化。从这些数据中我们可以得到结论,SCAVENGE是稳健且可重复的,这使得在单细胞分辨率下能够正确表征性状相关性。图2.使用模拟和真实数据集评估 SCAVENGE 的性能和稳健性。
为了评估SCAVENGE是否可以准确地检测遗传驱动的表型相关细胞群,并通过大规模的单细胞表观基因组数据产生生物学见解。作者利用来自22个高度可遗传的血细胞性状的GWAS数据来检查这个单细胞数据集中的因果细胞状态,并且在低维均匀流形近似和投影(UMAP)空间中显示了四个代表性性状的单个细胞的TRS。作者发现,与相关细胞谱系相关的性状显示出明显的富集,阐明了这些遗传效应的细胞类型特异性,这些遗传效应被SCAVENGE很好地捕获。对于单个性状,细胞表现出最高TRS的富集细胞区室可以彼此远离分布。通过对齐先前批量注释的造血细胞群,作者发现富集的细胞区室与先前对血液性状因果细胞类型的了解高度一致。为了全面探索各种细胞环境中血液学表型的遗传关联,作者汇总了同一注释细胞类型内细胞的SCAVENGE TRS。总之,SCAVENGE可以概括表型相关遗传变异和特定细胞环境之间的已知共定位,同时提供由单细胞谱实现的其他信息。
图3.SCAVENGE能够全面注释血细胞性状,并捕获其因果细胞类型的遗传基础。
为了评估SCAVENGE是否可以在表型丰富但异质的单细胞数据中捕获与疾病相关的细胞状态。作者调查了与SARS-CoV-2感染个体中严重COVID-19风险增加相关的遗传变异的富集。作者应用SCAVENGE来研究这些变异的富集,他们发现单核细胞和树突状细胞显著富集,在15个不同细胞群中TRS最高。这一观察结果与最近的报道一致,即不同类型的单核细胞和树突状细胞与严重COVID-19中的炎症表型和免疫反应密切相关。作者观察到COVID-19患者的细胞TRS显着高于健康个体的细胞TRS,这表明SCAVENGE可以捕获与疾病相关的细胞状态。图4.SCAVENGE捕获与疾病相关的细胞状态,并剖析CD14单核细胞中与COVID-19严重程度相关的异质性。
作者虽然使用SCAVENGE的分析已经阐明了识别疾病相关细胞类型和状态的能力,但他们也想评估是否可以在整个发育轨迹上实现疾病相关性。为此,作者建立了B细胞发育的轨迹。在B细胞发育的关键中间体中观察到最强的ALL风险变异富集,包括从前B细胞到幼稚的B细胞,在早期前B细胞中具有峰值 ,这种状态与这种疾病高度相关,但尚未被证明是这种疾病作为起源细胞的确切基础。这种模式揭示了调节染色质如何受到疾病易感遗传变异的影响,该分析还揭示了特定富集变体的潜在机制。图5.SCAVENGE揭示了所有风险易感性沿B细胞发育轨迹的动态变化。
本文向我们介绍了一种新的算法SCAVENGE,这是一种使用网络传播策略在单细胞分辨率下表征特定细胞类型,状态和轨迹中复杂疾病相关和性状相关遗传关联的方法。作者通过使用模拟和真实的数据集来证明SCAVENGE是经过良好校准和强大的。作者还提供了实例,展示了SCAVENGE如何通过将疾病相关的遗传变异映射到适当的细胞环境来提供以前未被重视的生物学和功能见解。
教授介绍:
Vijay G. Sankaran
Vijay G. Sankaran博士是波士顿儿童医院血液学/肿瘤学科的Lodish家庭主席;哈佛医学院儿科副教授;Dana Farber/波士顿儿童癌症和血液疾病中心的主治医师。他拥有宾夕法尼亚大学生物化学学士和硕士学位,剑桥大学生物化学硕士学位,哈佛医学院获得医学博士和博士学位,随后,他在波士顿儿童医院和波士顿医疗中心做了儿科住院医师。Sankaran博士因其在利用人类遗传学更好地了解血细胞生产过程方面的工作而获得了许多奖项,包括最近的2018年Gale和Ira Drukier儿童健康研究奖以及2019年美国临床研究学会Seldin-Smith先锋研究奖。
Sankaran实验室利用人类遗传学来完善我们对造血的理解,以及这一过程在人类疾病中如何出错。他们还在开发技术,以便更好地研究体内人类造血,包括谱系追踪和单细胞基因组学方法。
参考文献:
Yu, F.,Cato, L.D., Weng, C. et al. Variant to function mapping at single-cell resolution through network propagation. Nat Biotechnol (2022).