什么?!按照转录组筛选的5个最明显的差异基因只有2个与qRT-PCR结果一致?
转录组测序(RNA-seq)将细胞内某一类型(或全部)的RNA逆转录成DNA,通过高通量测序的方法测定其序列并统计其表达水平的一项技术。是检测基因表达变化的通用方法。qRT-PCR 是指通过对 PCR 扩增反应中每一个循环产物荧光信号的实时检测从而实现对起始模板定量及定性的分析。
RNA-seq无需知道实验样本的基因组序列含比传统定量更多的信息,RNA-seq覆盖的范围更广,更精确。 一般而言RNA-seq是大规模筛选用的,反应样本整体的基因表达变化趋势,但不能保证每一个基因的变化趋势都与qPCR保持一致。2017年5月,来自比利时根特大学的Celine系统的阐述了这个问题。(Benchmarking of RNA-sequencing analysis workflows using whole-transcriptome RT-qPCR expression data),发现转录组不管采用何种方法 ,RNA-seq与RT-PCR相关性在0.8左右,有15.1%-19.4%的RNA-seq结果与RT-PCR对应不上,non-concordant序列中有1.6%-2.8%与RT-PCR结果完全相反如下图:
这些non-concordant序列的共同的特点是序列较短和外显子少,但与GC含量和同源基因的多少没有关系。造成这些序列non-concordant的原因有很多,包括原始数据的过滤、接头引物的选择和分析方法等有关。
因此,我们拿到RNA-seq与RT-PCR结果不一致的话:
首先需要看进行不一致的程度分析:
A.验证30个基因,25个表达趋势一致;
B.验证30个基因,15个表达趋势一致;
C.验证30个基因,5个表达趋势一致;
D.验证3个基因,1个表达趋势一致。
其次思考可能存在的原因在哪里?
如D情况,验证基因数太少,随机出现的概率会比较大,属于验证实验设计不合理,不作为讨论范围。
如A情况,属于结果一致,为了更好的表示是否一致,建议计算30个基因的相关性系数,趋势只反映上下调,不能反映倍数。一般相关性系数大于0.8,说明一致性较好。
如C情况,优先考虑是否是实验组与对照组在某个实验中设置颠倒。
如B情况,相对复杂,需要一步一步来排查:能够出现问题的点,无非是验证设计有问题?QPCR结果不准确?转录组结果不准确?
验证设计有问题:
1.样本是否是同一批次样本进行转录组和QPCR分析?
2.挑选验证基因时,挑选的基因是否序列较短或者外显子较少?
3.是否低表达的基因比例过高(对于低表达基因,转录组表达量结果准确性偏低)?
QPCR结果不准确:
1.查找实验环节是够存在问题?
2. 内参基因是否稳定?
转录组结果不准确:
1.查看插入片段随机性分布,是否存在5'端严重降解?
2.查看比对效率是否正常?查看样本间的相关性系数,是否存在组内小于组间?
3.分析差异表达的基因的readcount一般在多少比较比较合适?
一般认为多个样本中,至少有一个样本的3次生物学重复的readcount≥10;
如果进行RT-pcr验证,建议选择至少有一个样本的3次生物学重复的readcount≥20.
原始文献:
Everaert C, Luypaert M, Maag J L V, et al. Benchmarking of RNA-sequencing analysis workflows using whole-transcriptome RT-qPCR expression data[J]. Scientific Reports, 2017, 7(1): 1559.
相关文献:
1. Christelle R, Watson M. Errors in RNA-Seq quantification affect genes of relevance to human disease[J]. Genome Biology, 2015, 16.
2. Teng M, Love M I, Davis C A, et al. A benchmark for RNA-seq quantification pipelines[J]. Genome biology, 2016, 17(1): 74.