单细胞转录组测序数据由于测序技术的问题,常常难以捕获到低表达的基因,从而出现大量的零值,这些零值通常被称为“dropout”。这些基因信号的缺失,将影响对基因间调控关系的解释,因此scRNA-seq数据的稀疏可能会阻碍下游的分析,难以建模和处理。有2种解决数据稀疏的方法,(i)使用合适的数据构建统计模型,对scRNA-seq数据的稀疏、抽样差异及噪音进行固有建模;(ii)填补零值,使其更好地接近真实的细胞表达水平,但不适合处理大量缺失。
2018年7月26日,哥伦比亚大学Dana Pe'er教授在Cell上发表MAGIC(Markov affinity-based graph imputation of cells),利用流形学习还原单细胞的基因表达,并基于还原后的数据发现新的基因调控关系。
原文链接:https://doi.org/10.1016/j.cell.2018.05.061
代码:https://nbviewer.jupyter.org/github/KrishnaswamyLab/magic/blob/master/python/tutorial_notebooks/emt_tutorial.ipynb
参考:https://mp.weixin.qq.com/s/8Io0qQttOALTEsmdftj0UQ