(五)比对相关
blast:Basic Local Alignment Search Tool,一种序列比对的工具。
mapping:reads 往参考序列上做比对。(短对长)
alignment:比对,通过算法获取两个或多个序列之间的相似性以至于同源性。(长度相似)
junction reads:跨越多个外显子的 reads。
genome browser:基因组浏览器,用于查看 mapping 结果的工具。例 如:IGV,UCSC Genome browser。
bam/sam:当测序得到的 fastq 文件 map 到基因组之后,我们通常会得到一个以 sam 或者 bam 为扩展名的文件。其记录了比对率、比对位置等具体信息。SAM 的全称是 Sequence Alignment/Map format。而BAM 就是 SAM 的二进制文件(B 取自 binary)。
(六)表达定量相关
RPKM:表达水平的表示方式。根据 RNA-seq 原理,测序过程实际上是对转录组中各转录本打断后随机采样的过程。因此,当某基因的表达水平较高时,该基因上的读段数就多;当某基因的长度较长时,该基因上的读段数也会较多;另外,基因上的读段数还受到测序深度的影响,即当某次 RNA-seq 实验测序深度较深时,基因上的读段数也较多。因此,如果要利用读段数这一统计量来估计基因表达水平,就需要将某基因上的读段数 xg 除以基因的长度 lg 和总的测序深度 w 来进行归一化。基于这种思想,Mortazavi 等人提出了 RPKM (Reads Per Kilo-base per Million reads)的概念 (Mortazavi et al, 2008),并成为 RNA-seq 应用早期估计基因表达水平和外显子表达水平的主要方法。RPKM 方法的公式表示为:
RPKM gene(i) = 10^9 readcountgene(i) /(lengthgene(i) * libsizegene)*
因此,RPKM 可以作为一个衡量基因表达水平高低的重要指标。
FPKM:FPKM 与 RPKM 的用途有一定的相似之处,都是为了消除
技术偏差的表达水平的表示方式。不同的是 FPKM 观察出双端 reads
中 fragment 的差异而 RPKM 关注的是 reads 的表达量。
FPKM与RPKM计算方法基本一致
RPM/CPM: Reads/Counts of exon model per Million mapped reads (每百万映射读取的reads)
TPM:Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
参考链接: