RNA-seq是通过NGS技术来检测基因表达量;但是由于不同基因的长度不同,不同批次数据的测序量不同,原始的count值(raw count)不适合直接作为表达量用于样品间比较。因此,需要对counts值进行矫正处理。
一个基因越长,落在其内部的read counts数目就会相对越多。因此不能单纯用比对到参考基因的reads数来衡量基因的表达量。在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表现量。
所以需要解决两个问题:1、不同基因的长度不同;2、不同批次数据的测序量不同。
随着测序技术的发展多种归一化算法也应运而生,最常用的有RPM、CPM、FPKM,RPKM,TPM。
1、RPM、CPM
Reads/Counts of exon model per million mapped reads
解决了测序量的问题
RPM适合于产生的read读数不受基因长度影响的测序方法,比如miRNA-seq测序,miRNA的长度一般在20-24个碱基之间。
2、RPKM 、FPKM
(1)RPKM (Reads Per Kilobase Million):RPKM适用于单端测序文库
都解决了测序量不同的问题,也解决了基因长度的问题。
在双端测序中FPKM=RPKM/2,单端测序FPKM=RPKM。
3、TPM
TPM的计算方法与RPKM很类似,同样的对基因长度和测序量进行标准化。
参考:https://blog.csdn.net/herokoking/article/details/78790938