参考 cellranger-atac 官方流程: Single Cell ATAC - Official 10x Genomics Support
Chromium scATAC 提供了一种全面的方法来确定单个样品中数百到数千个细胞中染色质的调控情况。细胞核悬浮液在包含转座酶的转座混合物中,转座酶进入细胞核,将染色质开放区域的 DNA 片段化。利用微流控芯片,细胞核被分割成纳米级的 GEMs。约 75 万个 10x barcodes用于单独和唯一地索引每个细胞核的 transposed DNA。文库构建和测序,使用 10x barcodes 将单个 reads 与单个 partitions 联系起来,从而与每个单独的细胞核联系起来。
实验建库流程
测序
Cell Ranger ATAC 简介
Cell Rager ATAC 软件是用于分析由 10x Genomics Chromium 平台产生的 scATAC 数据,进行鉴定开放染色质区域、motif 注释、差异可及性分析。包含 cellranger-atac mkfastq
, cellranger-atac count
, cellranger-atac aggr
, cellranger-atac reanalyze
4个 pipeline。
cellranger-atac mkfastq
将 Illumina 测序仪生成的原始碱基(BCL)文件转换为 FASTQ 文件中。
cellranger-atac count
将 FASTQ 文件进行 ATAC 分析,包括:
- Read filtering and alignment
- Barcode counting
- Identification of transposase cut sites
- Detection of accessible chromatin peaks
- Cell calling
- Count matrix generation for peaks and transcription factors
- Dimensionality reduction
- Cell clustering
- Cluster differential accessibility
cellranger-atac aggr 聚合分析多次运行的 cellranger-atac count 的输出,包括: - Normalization of input runs to same median fragments per cell (sensitivity)
- Detection of accessible chromatin peaks
- Count matrix generation for peaks and transcription factors for the aggregate data
- Dimensionality reduction
- Cell clustering
- Cluster differential accessibility
- Chemistry batch correction
cellranger-atac reanalyze 使用 cellranger-atac count 和 cellranger aggr 分析文件,使用可调参数设置重新运行二次分析
Cell Ranger ATAC 下载
官方是需要先进行注册,才能进入下载页面
Downloads -Software -Single Cell ATAC -Official 10x Genomics Support
下载软件:
# 下载软件 Cell Ranger ATAC - 2.1.0 (April 4, 2022)
wget -O cellranger-atac-2.1.0.tar.gz "https://cf.10xgenomics.com/releases/cell-atac/cellranger-atac-2.1.0.tar.gz?Expires=1717978844&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1hdGFjL2NlbGxyYW5nZXItYXRhYy0yLjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE3MTc5Nzg4NDR9fX1dfQ__&Signature=B4r8rSUYWzexRsv0zv9oeTrRSRdm7IRQLfng2VYE9b0ntD0MvbY3wUkwCNcDkVRQadkkMR0uddWOXtlXuviDIajmZZrUkk6AEMqkjz3DtXTvyDR2PdR6kxKc5LvxYwSRE-zMpDFURKSR5U28Og3T9hQk-dCNo5bNnhnx4VZDzYPyN-UTKYMEegkgE8rLDx7th2InVnhsUgd1LiNhpPohsRKB0DtJbEn-EFLmsuTzI6TPgKmM8iwCDYg0lX2gvFYP5N30v7LTFRZYxs1o4li74FKogdxvbO0mm329X59xp4Uv2pSXcQMrBZ3po3-b069S3A22RvqM9Xe4BK4q8sIy7A__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
# 若显示签发证书也过期,下载命令中添加 --no-check-certificate
# 解压文件
tar -zcf cellranger-8.0.0.tar.gz
下载参考基因组
# 下载人的参考基因组 GRCh38 Reference - 2020-A-2.0.0 (May 3, 2021)
wget https://cf.10xgenomics.com/supp/cell-atac/refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz
# 下载小鼠的参考基因组 mm10 Reference - 2020-A-2.0.0 (May 3, 2021)
wget https://cf.10xgenomics.com/supp/cell-atac/refdata-cellranger-arc-mm10-2020-A-2.0.0.tar.gz
# 下载人和小鼠的参考基因组,可用于人源小鼠类型的物种GRCh38_and_mm10 Reference - 2020-A-2.0.0 (May 3, 2021)
wget https://cf.10xgenomics.com/supp/cell-atac/refdata-cellranger-atac-GRCh38-and-mm10-2020-A-2.0.0.tar.gz
若非模式物种,则需根据基因组文件(genome.fa) 和注释文件(gene.gtf) 构建参考基因组索引
$softdir/cellranger mkref \
--genome $name \
--fasta genome.fa \
--genes gene.gtf \
--nthreads $thread \
--memgb $lmtRAM
cellranger-atac mkfastq
cellranger-atac mkfastq --id=tiny-bcl \
--run=/path/to/tiny_bcl \
--csv=cellranger-atac-tiny-bcl-simple-1.0.0.csv
cellranger-atac count
cellranger-atac count --id=sample345 \
--reference=/opt/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 \
--fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
--sample=mysample \
--localcores=8 \
--localmem=64
cellranger-atac aggr
cellranger-atac aggr --id=AGG123 \
--csv=AGG123_libraries.csv \
--normalize=depth \
--reference=/home/jdoe/refs/hg19
cellranger-atac reanalyze
cellranger-atac reanalyze --id=AGG123_reanalysis \
--peaks=AGG123/outs/peaks.bed \
--params=AGG123_reanalysis.csv \
--reference=/home/jdoe/refs/hg19 \
--fragments=/home/jdoe/runs/AGG123/outs/fragments.tsv.gz
对于数据是fastq格式的单个样本,只使用 cellranger-atac count 即可。对于多个样本得到的数据,也可以采用第三方软件 harmony 进行整合。
输出
通常情况,cellranger-atac 得到的分析结果,会采用其他软件,如 Signac 进行进一步细致的分析。
cellranger-atac count 的输出结果一般是主要的输出,也可用于后续的其他分析:
- Per-barcode fragment counts & metrics: /home/jdoe/runs/sample345/outs/singlecell.csv
- Position sorted BAM file: /home/jdoe/runs/sample345/outs/possorted_bam.bam
- Position sorted BAM index: /home/jdoe/runs/sample345/outs/possorted_bam.bam.bai
- Summary of all data metrics: /home/jdoe/runs/sample345/outs/summary.json
- HTML file summarizing data & analysis: /home/jdoe/runs/sample345/outs/web_summary.html
- Bed file of all called peak locations: /home/jdoe/runs/sample345/outs/peaks.bed
- Smoothed transposition site track: /home/jdoe/runs/sample345/outs/cut_sites.bigwig
- Raw peak barcode matrix in hdf5 format: /home/jdoe/runs/sample345/outs/raw_peak_bc_matrix.h5
- Raw peak barcode matrix in mex format: /home/jdoe/runs/sample345/outs/raw_peak_bc_matrix
- Directory of analysis files: /home/jdoe/runs/sample345/outs/analysis
- Filtered peak barcode matrix in hdf5 format: /home/jdoe/runs/sample345/outs/filtered_peak_bc_matrix.h5
- Filtered peak barcode matrix in mex format: /home/jdoe/runs/sample345/outs/filtered_peak_bc_matrix
- Barcoded and aligned fragment file: /home/jdoe/runs/sample345/outs/fragments.tsv.gz
- Fragment file index: /home/jdoe/runs/sample345/outs/fragments.tsv.gz.tbi
- Filtered tf barcode matrix in hdf5 format: /home/jdoe/runs/sample345/outs/filtered_tf_bc_matrix.h5
- Filtered tf barcode matrix in mex format: /home/jdoe/runs/sample345/outs/filtered_tf_bc_matrix
- Loupe Browser input file: /home/jdoe/runs/sample345/outs/cloupe.cloupe
- csv summarizing important metrics and values: /home/jdoe/runs/sample345/outs/summary.csv
- Annotation of peaks with genes: /home/jdoe/runs/sample345/outs/peak_annotation.tsv
- Peak-motif associations: /home/jdoe/runs/sample345/outs/peak_motif_mapping.bed
Web Summary:web_summary.html
四个关键指标,提供了实验的总体视图。若任何主要指标超出预期范围,则在页面顶部显示警告。
Cells 部分显示了与细胞识别相关的指标和图表。barcode rank plot(knee plot) 显示了fragments 重叠的 peaks,并标记了与细胞相关的barcodes。急剧下降表明细胞相关 barcodes 和空液滴相关 barcodes 之间分离良好。还显示了非细胞和细胞组的每个细胞barcodes 的片段数量分布。是基于重叠峰的片段,而分布图对应每个条形码的所有片段。表中的指标是从数据中导出的关键统计数据,这些数据有助于在膝关节图和直方图上调用细胞。
细胞聚类图显示了二维t-SNE投影中的细胞相关条形码,颜色显示了自动图聚类分析,该分析将具有相似染色质可接近性的细胞分组在一起。在Cell Clustering(按深度着色)图中,显示了相同的2-D投影,但是Cell着色是基于与条形码相关的唯一片段的数量。
插入大小部分显示了插入大小分布,以及由此派生的指标。scATAC reads 对产生核小体包裹和定位的详细信息。片段长度分布捕捉到核小体定位的周期性。
靶标部分显示了该文库在基因组中已知的、注释的、表观遗传相关区域的染色质可及性行为的分析(请参阅如何构建参考以了解更多细节)。第一个图是转录起始位点(Transcription Start Site, TSS)的轮廓,它被计算为所有条形码的可及性信号的总和,或每个碱基的切割位点的数量,而不考虑细胞与非细胞分配,在整个注释的TSS集合周围的2000个碱基窗口中,并由窗口中的最小信号归一化。该图谱有助于评估文库的信噪比,因为众所周知,与基因组的基因间和内含子区域相比,tss及其周围的启动子区域平均具有高度的染色质可及性。“转录起始位点的富集分数”指标就是从这个概要中得出的。请注意,这个富集分数取决于与参考资料一起打包的TSS位点的来源。第二个图显示了每个条形码组(即细胞和非细胞)内靶上片段或重叠峰片段数量的变化。对于细胞相关的条形码,预计有高比例的条形码片段重叠峰。该指标表总结了所有条形码的重叠百分比,不仅包括峰值,还包括其他类型的注释区域,如增强子和dna酶超敏感位点。
库复杂性部分绘制了观察到的每个单元复杂性,以每个单元的中位数唯一片段来衡量,作为每个单元的平均读取的函数。曲线的形状描绘了库中的饱和水平,可用于决定样品的目标测序深度。表中给出的指标总结了单个细胞和伪批量测量的库的复杂性。
如果库对应于一个多物种实验,那么摘要页面将看起来不同。例如,一个典型的多物种实验包括混合人类和老鼠的细胞。首先,之前描述的一些指标将对实验中的每个物种都有一个版本。其次,总结将有一个Barnyard部分,其中显示了所有条形码的散点图以及每个物种的相关片段的数量,通过自动分配非细胞,多重和细胞条形码组进行颜色编码。它还显示了每个物种的条形码纯度分布,以细胞条形码中与分配给条形码的物种唯一对齐的片段的比例来衡量。表中的指标总结了生成图表的数据中的关键统计信息。
Matrics:Filtered peak-barcode matrix
filtered_peak_bc_matrix
├── barcodes.tsv
├── peaks.bed
└── matrix.mtx
Annottations:peak_annotation.tsv
根据附近基因的基因组位置,将 peaks 映射到基因上。一般性原则如下:
- 目的是将peaks 比对到gene symbols(给定基因的所有转录本集合)
- a peak 能比对到多个基因上;
- 对于注释到一个基因上的peaks,peaks 只能被注释为一种类型,不能同时被注释为同一个基因的启动子和远端位置(distal);
- 包含蛋白编码基因才能注释;
注释过程如下: - peaks 与任何转录起始位点(TSS)的启动子区域(-1000 bp, +100 bp)重叠,则将其注释为该基因的启动子峰;
- peaks 在最近的TSS的200kb以内,如果它不是最近的TSS基因的启动子峰,它将被注释为该基因的远端峰;
- peaks与转录本重叠,且它既不是启动子,也不是该基因的远端峰,则将其注释为该基因的远端峰,距离设为零;
- peaks 没有比对到任何基因上,将被删除。
peak_annotation.tsv 文件的各列: - chrom:染色体名;
- start:peak 起始位置;
- end:peak 终止位置;
- gene:基于参考的基因注释的 gene symbols;
- distance:peak 距基因TSS的距离。正值表示 peak 的起点在TSS的下游,负值表示 peak 的终点在 TSS 的上游,零表示 peak 与TSS重叠或与基因转录本重叠;
- peak_type:“promoter”、“distal”、“intergenic”。
chrom start end gene distance peak_type
...
chr14 77769877 77770568 POMT2 16659 distal
chr14 77781976 77782953 POMT2 4274 distal
chr14 77781976 77782953 GSTZ1 -4274 distal
chr14 77786487 77786973 POMT2 254 distal
chr14 77786487 77786973 GSTZ1 -254 promoter
chr14 77787130 77787963 POMT2 0 promoter
chr14 77787130 77787963 GSTZ1 0 promoter
chr14 77843033 77843952 TMED8 0 promoter
...
注:同一个peaks可以注释为多个基因,如 chr14:77786487-77786973