2020-01-21 测序数据的质控和过滤

二代测序数据下机后一般为rawdata，这时候含有一些低质量测序数据和街头污染数据，我们要将低质量数据过滤掉获得cleandata用于后续分析；

本过程涉及到的软件

Fastqc(用于测序数据质控)，
MultiQC（用于质控结果整合和解读）
Trimmomatic（用于测序数据修剪和过滤）

软件说明文档地址：

  Fastqc：http://www.bioinformatics.babraham.ac.uk/projects/fastqc/  （依赖java）
   '''安装：conda install -c bioconda fastqc'''

  MultiQC：https://multiqc.info/  （依赖python 2.7或3.6都可以）
 '''安装：conda install -c bioconda -c conda-forge multiqc'''

  Trimmomatic：http://www.usadellab.org/cms/index.php?page=trimmomatic
  '''安装：conda install -c bioconda Trimmomatic'''

利用fastqc对测序数据进行质控

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]seqfile1 .. seqfileN

       -o      用来指定输出文件的所在目录，生成的报告的文件名是根据输入来定的，注意是不能自动新建目录的。
                输出的结果是.zip文件，默认自动解压缩，命令里加上--noextract则不解压缩。

        -f      用来强制指定输入文件格式，默认自动检测。

        --(no)extract 输出结果是.gzip文件，默认是自动解压缩

          -c      污染物选项，输入的是一个文件，格式是Name[Tab] Sequence，
                “#”开头的行是注释，里面是可能的污染序列，如果有这个选项，FastQC会在计算时候评估污染的情况，并在统计的时候进行分析。

          -q      会进入沉默模式，指定这个选项的时候，程序不会实时报告运行的状况，即不出现下面的提示：
                             Startedanalysis of target.fq
                            Approx5% complete for target.fq
                            Approx10% complete for target.fq

fastqc运行结果图：

image.png

运行结束后，每个fq.gz文件会产生两个文件，一个是zip压缩文件，一个是html文件，将所有样品的文件转移到新的文件夹中。
如，可以将所有的zip文件和html文件转移到名字为fastqc的文件夹中。

mkdir fastqc          ##新建一个fastqc文件夹
 mv *.zip ./fastqc/      ##将所有zip结尾的文件转移到新建的fastqc文件夹中
 mv *.html ./fastqc/   ##将所有html结尾的文件转移到新建的fastqc文件夹中

利用multiQC整合fastqc数据质控结果

 cd ./fastqc/             ##进入新建的fastqc文件夹（包含了所有的质控结果文件，包括html和zip）
     multiqc ./                  ##运行multiqc整合质控结果会产生两个新的文件，multiqc_report.html文件和multiqc_data文件夹
       #通过html文件就可以查看结果了

image.png

根据multiqc整合结果分析测序数据质量

利用 Trimmomatic对数据进行修剪

从上图可以看出，前15个碱基含量分布异常，
因此我们要将前15个碱基修剪掉，同时过滤掉低质量数据（）

trimmomatic  PE  -threads 12  AA_1B_1.fq.gz AA_1B_2.fq.gz  \
 AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz \
 AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz \
HEADCROP:15 MINLEN:50 TOPHRED33

##PE是pair-end
## -threads 12 使用12线程
## AA_1B_1.fq.gz AA_1B_2.fq.gz两个输入文件PE
## AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz      R1输出文件，P为保留的paired内容，U为unpaired内容，P可以看做PE的cleandata了
## AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz      R2输出文件，P为保留的paired内容，U为unpaired内容
## HEADCROP:15 ：切掉5‘端15bp
##MINLEN:50 ：过滤掉修剪完成后长度小于50的序列
##TOPHRED33：将质量值转换为PHRED33

最后编辑于：2020.01.21 17:01:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,372评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,368评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,415评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,157评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,171评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,125评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,028评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,887评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,310评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,533评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,690评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,411评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,004评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,812评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,693评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,577评论 2赞 353