【看文章涨姿势（一）】肺癌的T细胞免疫图谱

1. 简介

肺癌是一种非常常见的恶性肿瘤，其发病率和致死率在男性中一直位居恶性肿瘤之首。一般来讲，肺癌主要分为小细胞肺癌（约占15%）和非小细胞肺癌（Non-small-cell lung cancer，NSCLC）两大类，而其中非小细胞肺癌又可以分为腺癌（约占40%）、鳞状细胞癌（约占30%）和大细胞癌（约占15%）

Material：

研究人员对来自14个药物治疗前非小细胞肺癌患者的外周血、癌旁组织和癌组织的12,346个T细胞进行了单细胞转录组测序，全面描绘和解析了肺癌T细胞群体的组成、谱系以及功能状态图谱

使用 CD3, CD4, CD8 和 CD25 的抗体分离富集对应的T细胞：

细胞毒性T细胞：CD3⁺CD8⁺

辅助T细胞：CD3⁺CD4⁺CD25^low/int

调节性T细胞：CD3⁺CD4⁺CD25^high

Result：

跨组织分布的T细胞类群

肿瘤浸润T细胞的组成

肿瘤浸润T细胞亚群间潜在的状态转换关系

提出了新的肺腺癌临床标志物

补充知识：特异性免疫应答的过程

2. 结果

2.1. 亚群分类

对所有样本的原始的表达谱使用t-SNE方法进行降维

得到的聚类结果可以看到与样本的组织来源和亚型相关

为了得到内部的亚群，对上一步得到的降维结果进行无监督聚类（densityClust，一种基于密度的聚类算法，类似于Mean-shift）

Mean-shift算法：

Mean-shift 聚类是一个基于滑窗的算法，尝试找到数据点密集的区域。它是一个基于质心的算法，也就是说他的目标是通过更新中心点候选者定位每个组或类的中心点，将中心点候选者更新为滑窗内点的均值。这些候选滑窗之后会在后处理阶段被过滤，来减少临近的重复点，最后形成了中心点的集合和他们对应的组。查看下面的说明图：

单滑窗的 Mean-Shift 聚类

得到16个主要的亚群（亚群名称的最后部分为与该类聚类中心重合的基因的名称），其中：

7个位 CD8+ T 细胞亚群；

7个为CD4+ T 细胞亚群（Tconvs; C1, C2, C3, C4, C5, C6 and C7 of CD4 clusters）；

2个调节性T细胞亚群（Tregs; C8 and C9 of CD4 clusters）；

在这么多clusters中，文章重点关注上图中圈出的6个具有明显生物学意义的6个clusters

2.2. 不同的细胞亚群存在明显的组织来源特异性

使用卡方检验来定量描述这种组织来源偏好性

卡方检验（chi-square test）：

描述是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

在本研究中采用样本中某类亚群细胞的实际检测数与其随机检测到的期望个数的比值的卡方值R_O/E来描述这种偏差

例如，CD8-C1-LEF1 与 CD4-C1-CCR7 都是 naïve T 细胞，它们都富集在外周血中；而CD8-C6-LAYN (CD8+ exhausted T cells) 和 CD4-C9-CTLA4 (CD4+Tregs)只富集在肿瘤组织中； CD8-C3-CX3CR1 和 CD4-C3-GNLY 是效应细胞，富集于外周血和癌旁组织中，其高表达趋化因子受体和细胞毒性因子，而低表达T细胞“耗竭”（exhaustion）标记基因

肿瘤微环境中的杀伤性CD8 T细胞由于长期接受抗原刺激，会出现被称为“耗竭”（exhaustion）的失能状态

2.3. 克隆扩张

对16个亚群的8,038个T细胞进行TCR全长测序，得到5,015条 unique TCRs 和 3,023 条重复的TCRs，这意味着存在克隆扩张的现象

扩张范围在2~75之间（即2¹~2⁶），根据克隆的分布位置可以分为以下两种克隆扩张类型：

组织内部（ intra-tissue）的克隆扩张，某种TCR克隆只在该克隆所在的组织中找到其他相同克隆；

组织间（inter-tissue）的克隆扩张，某种TCR克隆在该克隆所在的组织之外找到其他相同克隆；

大多为组织内部（intra-tissue）的克隆扩张，少数为组织间（inter-tissue）的扩张

不同细胞亚群的克隆扩张的比例

可以看到属于naïve T 细胞的两个亚群 CD8-C1-LEF1 和 CD4-C1-CCR7，它们的克隆扩张比例很低。而属于效应T细胞的两个亚群 CD8-C3-CX3CR1 和 CD4-C3-GNLY，它们不仅克隆扩张比例高，而且有很大比例在外周血、癌旁组织和癌组织中都有分布，如下图：

克隆发生扩张，且在三个组织中都有分布——侧面反映了T细胞克隆在从发生位置到病灶位置转移过程中，边迁移边扩增

进一步研究发现一些涉及细胞粘附与迁移的基因的相对高表达，也从侧面印证了它们存在的迁移特性

3. 可借鉴的分析方法

3.1. 单细胞测序数据处理

去除核糖体RNA序列

从RFam数据库中下载核糖体RNA序列，将原始测序数据与其比对，过滤出未比对上的reads
舍弃低质量的样本数据

若单细胞的文库太小或检测到的表达的基因的数量太少（阈值设为所有细胞表达基因数的中位数减去3倍的方差），则将整个样本的数据舍弃

若检测到的CD3的TPM（CD3D, CD3E 和 CD3G 的均值）太低，该样本也舍弃
鉴定T细胞的克隆型

TPM_CD8 > 30 ：CD8⁺

TPM_CD8 < 3 ：CD8^-

TPM_CD4 > 30 ：CD4⁺

TPM_CD4 > 30 ：CD4^-

3.2. TCR分析

使用TraCeR工具，从T细胞转录组数据中组装出完整的TCR序列

3.3. 组织分布偏好性或其他bias类型的分析

可以利用独立性检验来考察两个变量是否有关系，若两个变量之间存在关联性，它们就会以比较大的概率一起出现，从而表现出偏好性

适用于独立性检验（又称关联分析）的统计学方法有

卡方检验（Chi-Square test）

Fisher精确检验（Fisher's exact test）

卡方检验
Fisher精确检验

分析男人女人节食是否有显著区别：

出现上述情况的概率是：

3.4. SC3：单细胞表达谱的无监督聚类

该聚类方法名为SC3（Single-Cell Consensus Clustering）

该方法本质上就是K-means聚类，不过在执行K-means聚类的前后进行了一些特殊的操作：

k-means聚类前：进行了数据预处理，即特征的构造，称为特征工程，该方法中是对输入的原始特征空间进行PCA变换或拉普拉斯矩阵变换，对变换后的新特征矩阵逐渐增加提取的主成分数，来构造一系列新特征；

k-means聚类后：特征工程构造出来的一系列新特征集合，基于这些新特征集合通过k-means聚类能得到一系列不同的聚类结果，尝试对这些聚类结果总结出consensus clustering

本人比较好奇的地方是：怎么从一系列不同的聚类结果中总结出consensus clustering？

使用CSPA算法（cluster-based similarity partitioning algorithm）

（1）对每一个聚类结果按照以下方法构造二值相似度矩阵S：如果两个样本i和j在该聚类结果中被聚到同一个集合中，则它们之间的相似度为1，在二值相似度矩阵中对应的值 S_i,j = 1，否则S_i,j = 0；

（2）对所有的聚类结果的二值相似度矩阵S取平均，得到consensus matrix；

（3）基于consensus matrix进行层次聚类，得到最终的consensus clustering；

参考资料：

(1) Guo X , Zhang Y , Zheng L , et al. Global characterization of T cells in non-small-cell lung cancer by single-cell sequencing[J]. Nature Medicine, 2018, 24(7).

(2) Nature Medicine| 张泽民组在单细胞水平绘制肺癌T细胞免疫图谱

(3) AI研习社《数据科学中必须熟知的5种聚类算法》

(4) Stubbington, M. J. T. et al. T cell fate and clonality inference from single-cell transcriptomes[J]. Nat. Methods 13, 329–332 (2016).

(5) 简书·Yan文怡《结合日常生活的例子，了解什么是卡方检验》

(6) CSDN·joey周琦《Fisher's exact test( 费希尔精确检验)》

(7) Kiselev, V. Y. et al. SC3: consensus clustering of single-cell RNA-seq data[J]. Nat. Methods 14, 483–486 (2017).