归一化(Normalization)
排除许多无关因素的影响外,每个基因的映射读数计数与RNA的表达(也就是我们较为关注的因素)之间成正比。而标准化的过程就是将无关因素考虑进来,对原始的计数值进行缩放,让不同样本之间的表达水平更具有可比性。
常常用作归一化的要素有:
1.测序深度
对于样本A而言,每段基因数目都是样本B的两倍。但是它们的基因都是一样的,产生这种差异的原因就在于样本A的测序深度是B的两倍。粉红色和绿色的方块表示基因的读本,连接的虚线代表了内含子。
2.基因长度
虽然此处样本A中基因X和基因Y的表达水平差不多,但是由于基因X较长,所以对应的基因读本也更多
3.RNA的构成
样本间基因表达水平以及基因表达数的差异或者污染的出现都会导致归一化的偏离。因此进行归一化之前需要对RNA的构成进行考虑。
在这个例子中,如果我们将每个样本的基因读数和总读数相比来进行归一化,就会造成对于同一个基因,样本A由于基因读数较多,从而使归一化后的表达量偏低。
因此在进行归一化之前,我们有必要先对数据进行分析,比较不同组样本之间数据的分布特点
常见的归一化方法:
不推荐使用RPKM/FPKM进行归一化
因为RPKM/FPKM输出的归一化数值在样本之间不具有可比性。因为PRKM/FPKM进行归一化后,每个样本归一化计数的总数将不同。
例如在上表中,就算RPKM相同,样本A中XCR1的相关计数比例5.5/1000000也比样本B中XCR15.5/1500000要高,所以不能直接对样本A和B之间的标准化计数结果进行比较,样本之间归一化的总数是不一致的,没有可比性
DESeq2进行归一化的方法:比率中位数
Step1 创建伪参考样本(逐行求几何平均值)
Step2 计算每个样本与参考的比值
Step3 计算每个样本的归一化因子(尺寸因子)
说明单个样本的所有基因比率分布的中值,y轴为频率
通常尺寸因子应该在1附近(也就是基因比率分布的中值),如果发现较大的变异,说明存在一些极端异常值。
Step4 利用归一化因子计算归一化的读数值(count value)
注意,归一化的读数值不是整数
最近比较忙,都是业余时间来学习的,一不小心就到深夜了。希望下次能够效率再高一些吧。练习部分的内容明天再更新上来,晚安~