multiqc可以整合其它软件的报告的软件,能将fastqc生成的多个报告整合成一个报告的软件,这样能方便的查看所有测序数据的质量。
MultiQC安装及运行
安装:
conda install multiqc
运行:
multiqc可以自动检测到文件中可以整合在一起的文件,运行也很简单。在指定目录下:
multiqc ./
输出的一个.hltm格式的文件是multiqc整合的结果
MultiQC结果分析
绿色区间——质量很好,橙色区间——质量合理。红色区间——质量不好。
绿色区间——质量很好;橙色区间——质量合理;红色区间——质量不好
当峰值小于27时——warning;当峰值小于20时——fail
对所有reads的每一个位置,统计ATCG四种碱基的分布。reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。
如果ATGC在任何位置的差值大于10%——warning;差值大于20%——fail
正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。
偏离理论分布的reads超过15%时——warning;reads超过30%时——fail
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。
当任意位置的N的比例超过5%——warning;超过20%——fail
当非unique的reads占总数的比例大于20%时——warning; 比例大于50%时——fail
测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示可能有bias的存在
>5%——warning;>10%——fail
以上就是质量评估MultiQC及结果分析的所有内容
参考:https://www.youtube.com/watch?v=qPbIlO_KWN0
//www.greatytc.com/p/85da4dcc6020