随着单细胞数据集的不断增长,计算需求呈指数级增长。我们注意到,即使在使用稀疏矩阵时,Seurat分析对于数据集>100,000个单元格也是具有挑战性的,这主要是由于在内存中存储完整数据集存在困难。HDF5数据格式不将数据存储在内存中,而是提供高效的磁盘存储,甚至可以扩展到大型数据集(甚至是>1M细胞)。
Linnarson实验室开发了一种基于hdf5的数据结构loom,可以方便地存储单细胞基因组数据集和元数据。他们还发布了一个名为loompy的Python API(完整的细节可以在这里找到)来与loom文件交互。
为了补充loompy,我们引入了loomR: loom API的一个R实现。虽然loomR还在开发中,但它提供了一种访问和与来自r的文件交互的方法。本教程将介绍如何安装loomR、对象交互、利用loomR内置的分块机制。最后,我们介绍了Seurat工作流中实现与loom文件直接兼容的初始步骤,目的是在不久的将来使Seurat完全兼容hdf5。