什么是h5ad数据?
h5ad文件h5ad文件提供了一种可扩展的方式来记录数据及其注释 (annotation)。单细胞测序的h5ad被分割成X, obs, var, uns等多个部分,分别存储不同的信息。其中X是表达量矩阵;obs包含细胞元数据,即从不同方向描述细胞的结果,例如细胞所属tissue;var包含基因元数据,即从不同方向描述基因的结果,X, obs, var均以dataframe格式存储;uns是非结构化注释,更多解释可查询h5ad(AnnData)。
h5ad格式数据的读取:读取h5ad格式的单细胞文件-腾讯云开发者社区-腾讯云 (tencent.com)
Anndata和h5ad之间关系
AnnData是一个用于处理高维生物医学数据(特别是单细胞RNA测序数据)的Python库。它非常适合处理由数千或数百万个细胞以及数千个基因构成的矩阵。AnnData 对象的核心是一个具有稀疏存储支持的矩阵,它还可以附带注释数据(例如细胞类型、实验条件)和其他元数据信息。
X: 表达矩阵,通常是细胞(行)与基因(列)之间的矩阵。
obs: 细胞的元信息(metadata),可以包括细胞类型、实验条件等。
var: 基因的元信息,可以包括基因名称、基因位置等。
obsm: 存储不同分析步骤中的降维结果,例如PCA、t-SNE等。
uns: 用于存储未分类的(unstructured)数据,例如聚类结果、颜色信息等。
h5ad是 AnnData 对象的一种专门的存储格式,基于 HDF5(Hierarchical Data Format version 5)标准。HDF5 是一种广泛用于科学数据存储的格式,支持高效的压缩、并行访问以及大数据集的处理。h5ad 文件格式通过 HDF5 文件来保存 AnnData 对象。
为什么要h5ad格式数据?
因为师兄给的流程里处理的对象是h5ad格式的数据
任务:如何将其他格式的单细胞转录组数据转换成h5ad格式数据?
单细胞数据一般有几种储存格式?单细胞测序—不同格式的单细胞测序数据读写(多样本)-腾讯云开发者社区-腾讯云 (tencent.com)
csv、txt、10x、h5、rds
这个博客中将5种单细胞数据格式都转换为Seurat对象。Seurat是一个用于单细胞RNA测序(scRNA-seq)数据分析的R语言包,它广泛应用于生物信息学领域。Seurat对象是这个包中用于存储和操作单细胞RNA测序数据的核心数据结构。
在 Python 中,有几个类似于 R 语言中 Seurat 包的工具和库用于单细胞 RNA 测序(scRNA-seq)数据的分析。譬如Scanpy,其中AnnData 对象保存了表达矩阵、细胞和基因的元数据,以及降维结果等。
以csv→h5ad为例