一.对于芯片数据:
GEO中的Series Matrix File(s)通常是经过了标准化和对数转换的数据,但是不是所有的都是
具体判断方法:
表达量是否需要重新标准化:
可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断
是否需要log2:根据数据值的大小:
如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。
注意:是否需要log是根据后续需要什么处理,不同处理对输入数据要求的不同形式来规定的,具体可以查看相关分析包的输入数据要求,比如
芯片数据标准化:
转自此文:https://blog.csdn.net/weixin_43700050/article/details/99703975
二.对于测序数据
Counts值
对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)
aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的
标准化的三种方法得出的三种值
RPM (Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
RPKM/FPKM方法:103标准化了基因长度的影响,106标准化了测序深度的影响。TCGA的数据分析多采用这种结果
TPM (Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。TPM实际上改进了RPKM/FPKM方法在跨样品间定量的不准确性。TPM的使用范围与RPKM/FPKM相同。
不同的值在GEO.TCGA中怎么分辨
GEO中需要注意给出的是什么值,临床信息中一般有处理方法记录
TCGA一般会几种标准化之后的值都会给你,你选其中这一种分析,目前多用FPKM值,多还在此基础上log过
具体还可参考生信技能树老师此文
RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同:https://cloud.tencent.com/developer/article/1484078