二代测序数据下机后一般为rawdata,这时候含有一些低质量测序数据和街头污染数据,我们要将低质量数据过滤掉获得cleandata用于后续分析;
本过程涉及到的软件
Fastqc(用于测序数据质控),
MultiQC(用于质控结果整合和解读)
Trimmomatic(用于测序数据修剪和过滤)
软件说明文档地址:
Fastqc:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (依赖java)
'''安装:conda install -c bioconda fastqc'''
MultiQC:https://multiqc.info/ (依赖python 2.7或3.6都可以)
'''安装:conda install -c bioconda -c conda-forge multiqc'''
Trimmomatic:http://www.usadellab.org/cms/index.php?page=trimmomatic
'''安装:conda install -c bioconda Trimmomatic'''
利用fastqc对测序数据进行质控
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]seqfile1 .. seqfileN
-o 用来指定输出文件的所在目录,生成的报告的文件名是根据输入来定的,注意是不能自动新建目录的。
输出的结果是.zip文件,默认自动解压缩,命令里加上--noextract则不解压缩。
-f 用来强制指定输入文件格式,默认自动检测。
--(no)extract 输出结果是.gzip文件,默认是自动解压缩
-c 污染物选项,输入的是一个文件,格式是Name[Tab] Sequence,
“#”开头的行是注释,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析。
-q 会进入沉默模式,指定这个选项的时候,程序不会实时报告运行的状况,即不出现下面的提示:
Startedanalysis of target.fq
Approx5% complete for target.fq
Approx10% complete for target.fq
fastqc运行结果图:
运行结束后,每个fq.gz文件会产生两个文件,一个是zip压缩文件,一个是html文件,将所有样品的文件转移到新的文件夹中。
如,可以将所有的zip文件和html文件转移到名字为fastqc的文件夹中。
mkdir fastqc ##新建一个fastqc文件夹
mv *.zip ./fastqc/ ##将所有zip结尾的文件转移到新建的fastqc文件夹中
mv *.html ./fastqc/ ##将所有html结尾的文件转移到新建的fastqc文件夹中
利用multiQC整合fastqc数据质控结果
cd ./fastqc/ ##进入新建的fastqc文件夹(包含了所有的质控结果文件,包括html和zip)
multiqc ./ ##运行multiqc整合质控结果会产生两个新的文件,multiqc_report.html文件和multiqc_data文件夹
#通过html文件就可以查看结果了
根据multiqc整合结果分析测序数据质量
利用 Trimmomatic对数据进行修剪
从上图可以看出,前15个碱基含量分布异常,
因此我们要将前15个碱基修剪掉,同时过滤掉低质量数据()
trimmomatic PE -threads 12 AA_1B_1.fq.gz AA_1B_2.fq.gz \
AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz \
AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz \
HEADCROP:15 MINLEN:50 TOPHRED33
##PE是pair-end
## -threads 12 使用12线程
## AA_1B_1.fq.gz AA_1B_2.fq.gz两个输入文件PE
## AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz R1输出文件,P为保留的paired内容,U为unpaired内容,P可以看做PE的cleandata了
## AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz R2输出文件,P为保留的paired内容,U为unpaired内容
## HEADCROP:15 :切掉5‘端15bp
##MINLEN:50 :过滤掉修剪完成后长度小于50的序列
##TOPHRED33:将质量值转换为PHRED33