我眼中的barcodes.tsv.gz/features.tsv.gz/matrix.mtx.gz

前段时间一直在用cellranger count进行单细胞测序数据的处理,不得不说Cell Ranger作为10X Genomics官方的单细胞数据处理工具,功能还是很强大的。Cell Ranger官方介绍

cellranger count输出结果中的outs.文件夹有几个是非常重要的信息,我们今天只关注于filtered_feature_bc_matrix文件夹下的内容和possorted_genome_bam.bam文件。

cellranger count输出结果中的outs文件夹

一般来说,我们下游的Seurat分析的输入文件会选择filtered_feature_bc_matrix中的文件,而不选择raw_feature_bc_matrix下的文件,前者是经过过滤的,去掉了低质量的信息。进入filtered_feature_bc_matrix文件夹会发现它下面包含3个文件:分别是barcodes.tsv.gzfeatures.tsv.gzmatrix.mtx.gz

barcodes.tsv.gz

AAACCCAAGAGATGCC-1
AAACCCAAGGTCGTAG-1
AAACCCACATCAGTCA-1
AAACCCAGTTTCCCAC-1
AAACCCATCCAAACCA-1
AAACCCATCCCTCTAG-1
AAACGAAAGCTGGTGA-1
AAACGAACAGACACAG-1
AAACGAAGTGAGATAT-1

这个文件当中记载了每个细胞的barcode信息。

features.tsv.gz

ENSMUSG00000051951      Xkr4    Gene Expression
ENSMUSG00000089699      Gm1992  Gene Expression
ENSMUSG00000102331      Gm19938 Gene Expression
ENSMUSG00000102343      Gm37381 Gene Expression
ENSMUSG00000025900      Rp1     Gene Expression
ENSMUSG00000025902      Sox17   Gene Expression
ENSMUSG00000104238      Gm37587 Gene Expression
ENSMUSG00000104328      Gm37323 Gene Expression

这个文件记载了小鼠基因注释文件中包含的基因id与symbol信息,注意,这个文件的来源是小鼠基因组的注释文件。

matrix.mtx.gz

%%MatrixMarket matrix coordinate integer general
%metadata_json: {"software_version": "cellranger-6.0.1", "format_version": 2}
32285 5741 11436472
1 1 4
2 1 1
22 1 1
24 1 8
31 1 1
41 1 1
43 1 1

这个文件主体部分包含三列,第一列为基因,即这个基因在前面features.tsv.gz中的位置;第二列为细胞,即这个细胞对应于barcodes.tsv.gz中的barcodes信息;最后一列代表在这个细胞中检测到的这个基因的reads数。举个例子来说:
例如第一行:1 1 4,就表示barcode为AAACCCAAGAGATGCC-1的细胞中检测到的Xkr4基因的reads数为4。
细心的朋友会发现在前面还有一行:32285 5741 11436472 ,这一行实际上就是一个汇总信息,例如有32285个基因,5741个细胞,11436472个非零数值。而最前面不过是指明软件的相关信息罢了。

思考

实际上在我们进行数据分析时,都觉得这3个文件一个不可少,但实际上真的是这样吗?

  • features.tsv.gz

前面已经说到,这个文件实际上是来源于小鼠基因组的注释文件,所以理论上只要你在使用cellranger count时用的基因组注释文件是一样的,这个文件是不会变的,你可以进入Cell Ranger推荐的参考基因组看是否是这样。

cd cellranger/reference/refdata-gex-mm10-2020-A/genes
#这个文件夹下面你会看到一个小鼠基因组的gtf注释文件,名称应该为genes.gtf
cat genes.gtf | awk '$15=="gene_name"{print$10"\t"$16}' | less -S
#看看这样提取的基因id和name是否和features.tsv.gz一样
"ENSMUSG00000051951";   "Xkr4";
"ENSMUSG00000089699";   "Gm1992";
"ENSMUSG00000102331";   "Gm19938";
"ENSMUSG00000102343";   "Gm37381";
"ENSMUSG00000025900";   "Rp1";
"ENSMUSG00000025902";   "Sox17";
"ENSMUSG00000104238";   "Gm37587";

你会发现,顺序和内容竟然和features.tsv.gz一样的,所以看起来似乎features.tsv.gz也不是那么不可或缺,咱也可以自己做,或者说可以通用。

  • matrix.mtx.gz

这个文件,毫无疑问,是必不可少的,可以说花那么多钱做个single cell RNA sequencing就是为了这个文件。。

  • barcodes.tsv.gz

光听这个文件的内容,感觉这个文件很重要,像某个地区居民的名单一样,丢了岂不麻烦大了?但实际上仔细想想,它真的重要到我们不能丢吗?
我们说,matrix.mtx.gz里面实际上已经包含了单个细胞、单个基因的表达信息了,这是cellranger count已经返给我们的信息,举个形象的例子,小孩子在出生时,当地户籍部门记录了这个小孩的性别信息,当然还有他的名字。但是一年后,这个小朋友改名字了,但是他的性别变了吗?并没有!所以实际上这个barcodes.tsv.gz文件如果我们改了,只不过是给每个细胞新起了一个名字,本身并不会造成细胞RNA信息的变化和混乱。
说到这里,不得不提到possorted_genome_bam.bam文件,这个文件里面实际上包含了每个细胞的barcode信息,就在其中以CB开头的那个字段里。

samtools view possorted_genome_bam.bam | less -S
#部分信息如下
CB:Z:ATTCTTGTCTCCTGTG-1
CB:Z:GTGCTGGTCACTCGAA-1
CB:Z:GCATGATAGCCGGATA-1
CB:Z:GCACGTGGTTGCCTAA-1

你可以把这部分信息提取出来,重复内容合并,然后以任意顺序作为barcodes.tsv.gz就可以进行Seurat分析了。哦对了,得某位大佬指点,cellranger count输出的barcodes.tsv.gz是按字母表顺序的,所以(谁知道它是不是最后随意用字母表顺序输出的呢?)

今天又是摸鱼的一天!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容