RNA-seq 数据量化指的是从 RNA-seq 的测序数据中计算出每一个基因的表达量。
传统的 RNA-seq 数据分析思路分两步,第一步是把利用 RNA-seq 方法得到的测序数据先比对到参考基因组序列上(tophat2, bowtie2, HISAT 等软件);第二步是从比对结果中计算表达量,可以理解为数每一个基因的 reads 数量(Cufflinks,HTseq-count 等软件)。
kallisto 软件最大的亮点在于在保证 RNA-seq 数据定量化分析与传统方法相似的精确性的基础上,极大地降低了运行时间。而这是由于在算法上更新——绕过传统方法中序列比对(alignment)的步骤,直接做量化分析。而之所以可以跳过序列比对的步骤,是基于一个已经被论证的前提,即一个read具体比对到参考基因的什么位置上不影响最终计算的表达量。
参考文章
1、Kallisto: 一个RNA-seq数据快速量化软件