StatQuest学习笔记24——RPKM FPKM TPM

前言——主要内容

这篇笔记是StatQuest系列笔记的第63节,这篇笔记跳过59节,60节,61节主要是因为第63节的内容是讲RPKM,FPKM和TPM这几个概念的区别,在进行差异分析前,有必要了解一下这几个概念。

测序的度量单位

在RNA-Seq中,我们通常使用RPKM(全称为Reads Per Kilobase Million)或FPKM(Fragments Per Kilobase Million)来进行均一化,这些均一化的数据(normalized data)主要解决两个问题:

  1. 测序深度(这个是指Million这一部分,侧重于数量),我们知道,测序深度越高,那么比对到基因上的reads数就越多;
  2. 基因的长度(这个指的是Kilobase这一部分,侧生于长度),我们知道,一个基因越长,那么比对到这个基因上的reads数就越多。

不过现在我们还使用TPM(全称为Transcripts per million)来作为均一化后的基因的表达单位,如下所示:

image

为了能够更好的区分这三个单位,即RPKM,FPKM和TPM,我们就通过一个简单的案例来说明一下,在这个案例中,我们一共有3个重复,分别为Rep1,Rep2和Rep3,检测了4个基因,分别为A,B,C,D,如下所示:

image

从上面的图表可以发现,Rep3的reads数比其它的2个更多,如下所示:

image

我们再看一下基因B,它的长度(4kb)是基因A(2kb)的2倍,这个或许就可以说明为什么基因B的reads数是基因A的reads数的2倍了,如下所示:

image

RPKM

RPKM的全称为Reads Per Kilobase Million,中文翻译就是每千个碱基的转录每百万映射读取的reads数

现在我们使用RPKM来均一化这些数据,如下所示

image

均一化的步骤如下所示

第一步:均一化read深度。

我们计算一下某个重复的总reads数,然后用它们除以10,这里我们只是简单地模拟一下,真正的应该是除以1000000,因为RPKM的M指的就是million,是百万,但如果要除以1百万的话,小数点太多,不太直观,如下所示:

image

现在就得到了总reads数除以10的结果,分别为3.5,4.5,10.6,此时,再用每个基因对应的reads数除以相应的前面结果,例如对于Rep1中的基因A来说,就是使用10除以3.5,也就是2.86,得到的这个单位我们称之为RPM,也就是reads per million,如下所示:

image

第二步:均一化基因长度。

在这一步骤中,我们需要对基因的长度进行均一化,如下所示:

image

此时,用RPM的数值除以每个基因的长度,例如,对于Rep1的基因A来说,就是2.86,基因A的长度是2kb,那么这个数值就是2.86除以2等于1.43,这就是RPKM,如下所示:

image

现在我们看一下RPKM的效果,在均一化之前的数据与均一化之后的数据,我们可以发现,经过均一化后的数据,每个重复里的每个基因的RPKM就非常接近了,如下所示:

image

FPKM

FPKM的全称为Fragments Per Kilobase Million,对应的中文就是每千个碱基的转录每百万映射读取的fragments。FPKM与RPKM的计算非常接近,其中区别就在于一个是FPKM的Fragemnts,而RPKM则是reads。

另外,RPKM通常用于单端测序,FPKM常用于双端测序,如下所示:

image

在RNA-Seq中,我们建库时会把DNA打断成小片段(fragment),两端加上接头,然后测序。

如果是单端测序,那么一个fragmetns就对应了一条read,如下所示:

image

如果是双端测序,那么一条fragments就对应两条reads,当然,有时候双端测序也有可能出现一条fragment对应一条read(另外一条read有可能会因为质量低而被剔除),FPKM就保证了,一条fragment的两条reads不会被统计2次,如下所示:

image

也就是说FPKM是以fragment为准,而不是以reads数为准,它们的计算方式是一样的。

TPM

TPM的全称为Transcripts per million,中文就是每百万条reads的转录本。我们现在还以原来的案例,看一下TPM是如何计算的。

第一步:均一化基因长度。

每个重复中的每个基因的reads数除以该基因的长度,对于Rep1的基因A来说,就是10除以2,也就是5,也叫RPK,如下所示:

image

第二步:均一化测序深度。

先计算出一个重复中总的RPK之和,然后除以10,对于Rep1来说,总的RPK是15,除以10就是1.5,如下所示:

image

然后再用每个基因的RPK除以上面计算出来的数值,对于Rep1的基因A来说,就是5除以1.5,即3.33,如下所示:

image

经过TPM这样的均一化后,我们可以发现,这3个重复的数值就比较接近了。

TPM和RPKM的区别

我们比较一下RPKM与TPM均一化扣的结果,如下所示:

image

TPM和RPKM(FPKM)都是基于基因的长度与测序深度进行均一化的,但是它们也有所不同。我们看一下,对于每个重复来说,它们的总TPM和RPKM的数据数据之间的是存在一定差异的,如下所示:

image

对于RPKM来说,每个重复的总RPKM值不一样,分别是4.29,4.5和4.25。

对于TPM来说,每个重复的总TPM是相同的,都是10(也就是说总的TPM)。

我们再来看一下这两种的差异有何重要意义。

我们先看下面的3个饼图,每个饼图的有大小相同,数值都是10。从中我们可以发现,对于同样的饼图来说,一份3.33的扇形(它代表了Rep1中的基因A)肯定比一份3.32的扇形(它代表了Rep2中的基因A)要大。而TPM就能发现这种3.33和3.32的这种差异,我们可以看到,在Rep1的总reads数中,比对到基因A上的reads数的比例肯定比Rep3中相应的比例要高,如下所示:

image

为什么会出现这种差异,我们可以再看上图,我们可以发现,在Rep3中,比对到基因D上的reads数所占的比例要大于Rep1中,比对到基因D的reads数的比例。通过TPM我们更容易发现,在每个重复中,比对到哪些基因上的reads更高或更低。

而对于RPKM这种均一化来说,很难比较比对到哪个基因上的总reads高,因为每个重复的总reads数都不同,也就是说这个饼图形的大小都不一样,如下所示:

image

还看上图,对于Rep1中的基因A来说,它的RPKM是1.43,而在Rep3中,基因A的RPKM是1.42,那么我们不能直接说在Rep1中,比对到基因A上的总Reads数大于Rep3中基因A的总Reads数,也就是无法直接说在Rep1中基因A的转录水平高于Rep3中基因A的转录水平,因为Rep1和Rep3的总RPKM不同。

而对于TPM就不一样,每个重复的总TPM是一样的,这样很容易比较相同基因在不同的重复中的转录水平高低。由于RNA-Seq主要是研究基因的转录水平,也就是说研究基因的转录本的reads的相对比例,因此使用TPM更加合理,如下所示:

image

CPM

有的时候还需要做到CPM,CPM的计算流程为:①总reads数除以100万;②用每个样本中的每个基因对应的reads数再除以①中的数字,就是CPM。

总reads数除以100万主要是为了方便计算CPM,否则CPM的数值会非常小,不方便,如下所示:

image

用途:在某些情况下,只想了解每个基因被覆盖到的相对reads数,而不希望对其做长度校正,就会使用这个指标。在某些RNA-seq文章或一些软件输出结果中(如edgeR)会出现。CPM只对read count相对总reads数做了数量的均一化。当如果想进行表达量的基因间比较,则就需要考虑基因长度的不同。如果进一步做长度的均一化,就是RPKM。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,376评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,126评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,966评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,432评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,519评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,792评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,933评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,701评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,143评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,488评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,626评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,292评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,896评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,324评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,494评论 2 348

推荐阅读更多精彩内容