本次实战我采用的是B站某教程上的拟南芥数据,教程链接:https://www.bilibili.com/video/BV1KJ411p7WN?p=1
构建项目目录,并导入文件
00ref中的gtf注释文件信息和fasta参考基因文件,可以用wget命令在数据库中下载 拟南芥注释信息链接
另外要检测数据的完整性,即md5值。
给自己的文件生成md5值:【md5sum *gz > md5.txt】
比对已有的md5值:【md5sum -c md5.txt】程序显示的结果为OK
FastQC安装及运行
安装:
conda install fastqc
运行:
fastqc sample1 R1. fastq. gz #处理一个文件
-
fastqc sample1 R1. fastq. gz sample1 R2. fastq. gz sample2 R1. fastq. gz sample2 R2. fastq. gz #批量处理多个文件
fastqc sample * gz #批量处理多个文件
运行完产生的. html文件可以在网页中打开,即生成的报告
推荐:可以用winscp软件,直接把文件拖动到桌面上。
FastQC报告:
绿色表示质量好,黄色一般,红色较差。柱状是25%~75%区间质量分布,error bar是10%~90%区间质量分布,蓝线表示平均数。
蓝色表示测序质量很高,暖色表示测序质量不高(此图是练习数据生成的图,长度短,质量高)
纵轴表示每个值对应的read数目,当测序结果为一个单一的高峰,表明测序质量良
四种颜色的线分别表示不同类型的碱基成分含量。图中read1-19均为不合格的结果,四条线平行则表明质量结果较好
蓝色为程序根据经验分布给出的理论值,红色是真实值。若出现红线双峰,表明样品不纯,混入了其他DNA。
当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率,当任一位置N的比率超过5%报WARN,超过20%报FAIL。
一般在切割RNA时的长度都在150碱基左右。
图中标红的部分“TruSeq Adapter”作为接头在trimmomatic中会用到。
通过的结果是不含接头。若有adapter残留,后续必须去接头【trimmomatic】。
以上就是质量评估FastQC及结果分析的全部内容。
参考:
https://blog.csdn.net/gateswell/article/details/78858579