CeleScope是一款由新格元生物科技有限公司自主研发的,用于处理新格元单细胞产品测序数据的软件。可从二代测序下机的原始fastq数据开始处理,经过细胞标签的提取、质控与校正,测序数据质控,参考基因组比对,基因定量,UMI计数后确定细胞数,最终得到数据的质控报告和细胞的表达矩阵,用于后续分析。
软件下载安装点击这里
0. 样本和数据准备
celescope rna sample
--outdir #输出文件夹
--assay #处理类型(rna,vdj,tags等),一般会自动输出
--sample #样本名称(最终展示在“质控报告”中的名称)
--thread #线程数(默认4个)
--debug #增加这个参数,celescope会输出额外的debug文件,默认False
--fq1 #read1 fq路径(默认 None)
--chemistry #默认 “auto”,软件会自动判断,也可以手动输入
该步骤同时输出 “质控报告” 的Sample信息
1. 细胞标签提取与纠错
基于read1序列信息过滤,提取并矫正barcode,将矫正后的barcode和原始的UMI序列添加到read2的ID中。
celescope rna barcode
--chemistry #默认auto即可,如果是定制化探针的试剂盒,这里需要选择`customized` ,同时提供`pattern`, `whitelist` 和 `linker`的信息
--pattern #磁珠的接头结构C8L16C8L16C8U8T18,字母C、L、U、T分别表示cell barcode、linker、UMI、T碱基,默认None。如果chemistry不是customized,使用默认参数None即可
--linker #linker的序列文件,默认None;如果chemistry不是customized,使用默认参数None即可
--whitelist #barcode的序列文件,默认None;如果chemistry不是customized,使用默认参数None即可
--lowQual #定义为低质量碱基的质量值(默认为0)
--lowNum #允许出现低质量的碱基数(默认为2)
--nopolyT #输出R1 没有polyT的reads(默认False)
--noLinker #输出R1 没有Linker的reads(默认False)
--allowNoPolyT #允许valid reads没有polyT(默认False)
--allowNoLinker #允许valid reads没有Linker(默认False)
--gzip #输出gzip形式的fastq文件(默认False)
--fq1 #R1 fastq文件,如果有多个文件可以用‘,’分隔
--fq2 #R2 fastq文件,如果有多个文件可以用‘,’分隔
--outdir #输出文件夹目录
--assay #处理类型(rna,vdj,tags等),一般会自动输出
--sample #样本名称(最终展示在“质控报告”中的名称)
--thread #线程数(默认4个)
--debug #增加这个参数,celescope会输出额外的debug文件,默认False
该步骤同时输出 “质控报告” 的Demultiplexing信息
2. 测序数据质控
对reads2序列进行质控
celescope rna cutadapt
--adapter_fasta #adapter序列的fasta文件(默认None),默认即可
--minimum_length #允许的最短序列长度(默认20)
--nextseq_trim #trim使用的质量值(默认20)
--overlap #检测接头时重叠碱基数(默认10)
--insert #read2插入片段长度(默认150)
--fq #fq文件
--gzip #输出gzip形式的fastq文件(默认False)
--outdir #输出文件夹目录
--assay #处理类型(rna,vdj,tags等),一般会自动输出
--sample #样本名称(最终展示在“质控报告”中的名称)
--thread #线程数(默认4个)
--debug #增加这个参数,celescope会输出额外的debug文件,默认False
该步骤同时输出 “质控报告” 的Trimming信息
3. 参考基因组比对
STAR将reads2序列定位到基因组上
celescope rna star
--outFilterMatchNmin #STAR软件使用的一个参数,默认0
--out_unmapped #输出没有定位到基因组的reads(默认False)
--starMem #运行内存(默认30)
--fq #fq文件
--consensus_fq #输入fastq文件的umi一致(默认False),默认即可
--outdir #输出文件夹目录
--assay #处理类型(rna,vdj,tags等),一般会自动输出
--sample #样本名称(最终展示在“质控报告”中的名称)
--thread #线程数(默认4个)
--debug #增加这个参数,celescope会输出额外的debug文件,默认False
该步骤同时输出 “质控报告” 的Mapping信息
4. 基因定量
调用featurecounts将定位到基因组上的reads,进一步定位到基因上
celescope rna featureCounts
--gtf_type 指定gtf annotation中的feature type,可以是gene或exon(默认:exon)
--genomeDir #参考基因组路径
--outdir #输出文件夹目录
--assay #处理类型(rna,vdj,tags等),一般会自动输出
--sample #样本名称(最终展示在“质控报告”中的名称)
--thread #线程数(默认4个)
--debug #增加这个参数,celescope会输出额外的debug文件,默认False
--input #STAR输出的bam文件,作为featureCounts的输入文件
该步骤同时输出 “质控报告” 的FeatureCounts信息
5. 生成表达矩阵
进行UMI计数以及细胞数目评估(cell-calling)最终输出表达矩阵
celescope rna count
--outdir #输出文件夹目录
--assay #处理类型(rna,vdj,tags等),一般会自动输出
--sample #样本名称(最终展示在“质控报告”中的名称)
--thread #线程数(默认4个)
--debug #增加这个参数,celescope会输出额外的debug文件,默认False
--bam #featureCounts输出的bam文件
--force_cell_num #强制细胞数目,默认None
--genomeDir #参考基因组的路径
--gtf #gtf文件路径
--expected_cell_num #预设细胞数(默认3000)
--cell_calling_method #有3种选择 {auto,cellranger3,inflection}(默认None)
细胞数目评估规则:
- 第一步:以UMI count 降序对barcode排序
- 第二步:a=预设细胞数*0.01,取第a个细胞为基准细胞
- 第三步:取基准细胞的UMI count*0.1为阈值(UMI数量大于阈值判定为细胞;UMI数量小于阈值判定为背景噪音)
6. 生成可视化报告
对表达矩阵进行简单分析:
- 线粒体统计
- tsne分群
celescope rna analysis
--outdir #输出文件夹目录
--assay #处理类型(rna,vdj,tags等),一般会自动输出
--sample #样本名称(最终展示在“质控报告”中的名称)
--thread #线程数(默认4个)
--debug #增加这个参数,celescope会输出额外的debug文件,默认False
--matrix_file #接表达矩阵的文件
--genomeDir #参考基因组路径
--save_rds #保存rds文件
--type_marker_tsv #输出差异基因列表
该步骤同时输出 “质控报告” 的Analysis信息