10× Genomics提供了完整的数据分析方案,单细胞数据转录组分析类似,VDJ数据也使用CellRanger软件进行分析,在使用之前,我们先了解其工作原理如何识别和矫正数据。基础知识见单细胞免疫组库VDJ——基础知识(一)。
一、10X cellranger VDJ pipeline工作原理:
1、对barcode和umi进行校正
barcode是已知序列,当有一个碱基匹配不上,如果此片段是低质量的测序,那么就校正为已知的barcode。同样对UMI的校正类似,当有多个count的UMI序列中出现有一条reads有一个错配时,就进行校正。2、tirm reads
去掉已知的adapter和引物3、组装
4、注释
关键在于CDR3序列注释,TCR的α链和BCR的轻链中CDR3一般位于V、J区段间,TCR的β链和BCR的重链,CDR3一般位于V、D、J基因片段。另外:CDR3必须起始于C氨基酸,整体长度大约5-27个氨基酸,并且没有终止密码子。有时候不止找到一个CDR3区间,此时将得分最高的最为CDR3区域。5、过滤
6、call cells
区分barcode是来自真实细胞,还是来自背景包括的核酸7、将细胞barcode分组生成不同克隆型(指一组含有相同成对的免疫细胞,来源于共同的祖细胞)
二、CellRanger分析操作
cd /data/Analysis/Cellranger
/data/softwares/cellranger-6.1.2/bin/cellranger vdj --id=sample_name \
--reference=/data/pipeline/10X_VDJ/database/ref/GRCh38 \
--fastqs=/data/Analysis/VDJ/rawdata \
--sample=sample_name \
--localcores=8 \
--localmem=64
--id 此分析项目名称,cellranger会生成以此命名的文件夹
--reference 参考基因组,人和小鼠的可在10X官网下载,其余物种可通过cellranger自行构建
--fastqs 原始数据的路径
--sample 原始数据文件名称的前缀
--localcore和--localmem参数是计算资源的设置,根据实际情况设置
三、CellRanger输出的结果
cellranger会产生很多文件,重要的结果都存放在在以id命名的文件夹中的outs文件夹里。这部分内容较多,会单独记录。四、mult pipeline联合分析
mult部分可以直接一起分析转录组和VDJ数据,见官网。
转录组和VDJ的区别:当转录组数据远远大于VDJ发现的细胞数的情况,一般长出现在TCR中,是由于TCR的基因表达量过低,将真实的TCR细胞过滤掉,无法识别,新版的的试剂提高了TCR的识别。当VDJ的细胞数远远大于转录组,一般出现在BCR的数据分析中,BCR基因表达量相对高,或者把背景RNA的当初真实BCR,新pipeline有效降低了假阳性的结果
参考:
10x Software Downloads
Understanding V(D)J Output
Web Summary