单细胞分析——深入理解 AnnData 数据结构

新手，纯搬运工
【内容出自https://cloud.tencent.com/developer/article/1817039】

一、环境准备：
搭建 Python 高效开发环境： Pycharm + Anaconda

二、安装 scanpy

pip install scanpy

三、AnnData
1、AnnData 介绍与结构
AnnData 是用于存储数据的对象，一般作为 scanpy 的数据存储格式。

image.png

下面我们动手构建一个用于创建 AnnoData 的虚拟数据

import numpy as np
import pandas as pd
import anndata as ad
from string import ascii_uppercase

设置观测值数量

n_obs = 1000

生成观察时间

obs = pd.DataFrame()
obs['time'] = np.random.choice(['day 1', 'day 2', 'day 4', 'day 8'], n_obs)

设置特征名

var_names = [i*letter for i in range(1, 10) for letter in ascii_uppercase]

特征数量

n_vars = len(var_names)

特征注释数据框

var = pd.DataFrame(index=var_names)

生成数据矩阵

X = np.arange(n_obs*n_vars).reshape(n_obs, n_vars)

2、AnnoData 初始化

初始化 AnnoData 对象

AnnoData 对象默认使用数据类型为 `float32`, 可以更精确的存储数据

这里设置为整数，为了演示方便

adata = ad.AnnData(X, obs=obs, var=var, dtype='int32')

一般默认将变量或特征存储在数据框的行

查看数据

print(adata)

3、AnnoData 切片特性
可以看到 AnnData 具有和 dataframe 或 Array 相似的长相，同样具备相似的特性，比如切片：

通过切片查看观测值和变量

print(adata.obs_names[:10].tolist())
print(adata.obs_names[-10:].tolist())
print(adata.var_names[:10].tolist())
print(adata.var_names[-10:].tolist())

查看矩阵

print(X)

3、AnnoData 的 view 特性

AnnoData 可以实现与 numpy 中的 view 相似的功能。
换句话说就是，我们每次操作 AnnoData 时，并不是再新建一个 AnnoData 来存储数据，而是直接找到已经之前初始化好的 AnnoData 的内存地址，通过内存地址来直接改变 AnnoData 的值。这样做的好处是：

无需分配多余的内存
可以直接修改已经初始化后的 AnnoData 对象
view 可以使用 .copy() 来得到 AnnoData 对象。

查看 'A' 列的头三个元素

print(adata[:3, 'A'].X)

设置 'A' 列的头三个元素

adata[:3, 'A'].X = [0, 0, 0]

查看 'A' 列的头五个元素

print(adata[:5, 'A'].X)

其实我们在调用 .[] 时，AnnoData已经在内部实现了该操作，也就是说该 view 会成为保存数据的 AnnoData 对象。

但是，如果将 AnnoData 对象的 view 中的一部分赋值，该内容会复制一份并生成新的数据存储对象。

adata_subset = adata[:5, ['A', 'B']]
print(adata_subset)
adata_subset.obs['foo'] = range(5)

可以看到，这时赋值会直接将 AnnoData 对象复制一份。现在 adata_subset 会重新得到一块内存用于存储实际数据，而不再仅仅是对 adata 的内存地址引用。

4、备份到本地

计算对象大小的函数

def print_size_in_MB(x):
print('{:.3} MB'.format(x.sizeof()/1e6))

查看 adata 对象大小

print_size_in_MB(adata)

查看是否备份

adata.isbacked

设置备份地址

adata.filename = './write/test.h5ad'

查看是否备份成功

adata.isbacked

可以看到，我们的 adata 对象已经备份成功，而且就在本地 ‘./write/test.h5ad’ 目录。

前边提到的 view 特性在这里同样适用，我们来看看 adata_subset 是否备份成功。
adata_subset.isbacked
adata_subset.filename = './write/adata_subset_test.h5ad'
adata_subset.isbacked

adata_subset 并没有被启用备份模式，重新设置备份模式。

需要注意的是：备份仅影响数据矩阵 X，所有注释信息都保留在内存中。如果想对全部数据的更改保存，则必须将导出到本地。

5、导出到本地
adata.write("./write/my_results.h5ad")
adata.write_csvs('./write/my_results_csvs', )

6、读取数据
import scanpy as sc
import pandas as pd

初始化数据

adata = sc.read(filename)

加入数据

anno = pd.read_csv(filename_sample_annotation)

加入样本分组信息

adata.obs['cell_groups'] = anno['cell_groups'] # categorical annotation of type pandas.Categorical

加入时间信息

adata.obs['time'] = anno['time'] # numerical annotation of type float

甚至可以直接赋值 dataframe

adata.obs = anno

官网：https://anndata.readthedocs.io/en/latest/

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,454评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,553评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,921评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,648评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,770评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,950评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,090评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,817评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,275评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,592评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,724评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,409评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,052评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,815评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,043评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,503评论 2赞 361
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,627评论 2赞 350