[转载]RNAseq: TopHat2 + Cufflinks分析流程

测序数据质量控制：fastqc软件

使用方法：

~/software/fastQC/FastQC/fastqc -o ~/data/liyan/filename_fastqc  filename.fq >> filename.log

参数说明：
-o: 输出文件所在目录，并且是已经存在的目录,如：filename_fastqc
--noextract: 不解压缩输出文件
最后加上需要fastqc的fastq文件：filename.fq ;
重定向结果到日志文件：filename.log, 以便查看。
filename: 表示是一个样品的一个生物学重复,一般有多个样品，每个样品有多个重复，如：C1_R1; 如果是双端测序则后面会加上数字，如：filename_1.fq和filename_2.fq

reads trim工具——trimmomatic

2.1 使用方法：

java -jar  ~/software/Trimmomatic-0.32/trimmomatic-0.32.jar SE -threads 5 -phred33 -trimlog filename_trimmomatic.log filename.fq filename_out.fq ILLUMINACLIP:adapter.fa:2:30:10 SLIDINGWINDOW:4:15 MINLEN:36

2.2 参数说明

SE：指定单端测序，PE：双端测序
-threads:指定线程数
-phred33:指定fastq文件的质量格式，或者：-phred64
-trimlog:指定日志文件，后加上输入和输出文件
ILLUMINACLIP:adapter.fa:2:30:10中
- adapter.fa为adapter文件，
- 2:允许的最大mismatch 数，
- 30:palindrome模式下匹配碱基数阈值,
- 10:simple模式下的匹配碱基数阈值
SLIDINGWINDOW:4:15 MINLEN:36中：滑动窗口的size是4个碱基，其平均碱基质量小于15，则切除。MINLEN:36 ：最低reads长度为36

bowtie2建立参考基因组的索引——bowtie2-build
3.1 使用方法：
bowtie2-build <要生成的索引文件前缀名>；比如：

nohup /home/cuckoo/software/bowtie2-2.2.3/bowtie2-build genome.fa bowtie2index/genome>>bowtie2.log &

3.2 参数说明：

genome.fa是fasta文件；
genome是要生成的索引文件的前缀名；
bowtie2index是一个文件夹，用来存放索引文件，方便日后查看和使用；
注意：程序运行完后genome.fa文件要放在bowtie2index索引目录中，tophat2软件才能正确运行。

reads mapping到参考基因组——tophat2软件：基于bowtie2
4.1 使用方法：

/home/cuckoo/software/tophat-2.0.12.Linux_x86_64/tophat2 -p 8 -G /home/cuckoo/data/liyan/train/genes.gtf -o filename_thout/ /home/cuckoo/data/liyan/train/bowtie2index/genome /home/cuckoo/data/liyan/train/filename.fq >filenametophat.log

4.2 参数说明：

-p ：指定线程数，默认为1
-G ：指定已有的基因组注释信息，gtf或gff文件；
-o ：指定输出目录，默认为”./tophat_out“；
后面加上索引文件：与前面的bowtie2建立的索引相对应，只取前缀名。
最后加上fastq文件：filename.fq；如果是双端测序则是filename_1.fq和filename_2.fq 两个文件。

转录本组装——Cufflinks：Cufflinks是一套拼接转录本，定量表达量。
5.1 使用方法：

/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cufflinks -p 8 -o filename_clout filename_thout/accepted_hits.bam >filename_cufflinks.log

5.2 参数说明：

-p ：指定线程数；
-o ：指定输出文件所在目录；
后面跟上Tophat2中生成的bam文件：

转录本合并——Cuffmerge
6.1 使用方法：

/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffmerge -g genes.gtf -s /home/cuckoo/data/liyan/train/bowtie2index/genome.fa -p 8 assemblies.txt

6.2 参数说明：

-g ：参考基因组注释文件
-s ：参考基因组序列文件
-p ：指定线程数
-o ：指定输出文件merged.gtf所在目录，默认情况下是 merged_asm
最后assemblies.txt ：一个包含每个样品（重复）拼接后的gtf文件的列表；如下：两个文件分别是在上一步中生成的样品的转录本注释文件。

./s0924fb_clout/transcripts.gtf
./sCal27_clout/transcripts.gtf

基因和转录本表达定量——cuffquant
7.1 使用方法：

/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffquant -o sample_quant -p 8 -u AT.gff sample_thout/accepted_hits.bam

7.2 参数说明：

-o ：指定结果输出目录：包含结果文件abundances.cxb
-p ：指定线程数
-u ：指定对比对上基因组上多个位置的reads进行统计分析。
加上参考基因组注释文件：AT.gff
最后加上Tophat2产生的该样本的比对结果文件：accepted_hits.bam

基因和转录本表达水平标准化——cuffnorm
8.1 使用方法：

/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffnorm -o cuffnorm_out -p 8 -L 0h_1,12h_CK1,12h_E1 AT.gff /data/disk2/liyan/AT/0h_1_quant/abundances.cxb /data/disk2/liyan/AT/12h_CK1_quant/abundances.cxb /data/disk2/liyan/AT/12h_E1_quant/abundances.cxb

8.2 参数说明：

-o ：指定结果输出目录
-p ：指定线程数
-L ：为每个样本（处理）作标记
–total-hits-norm ：计算所有的fragments，包括与所有的参考转录本不容的，默认不激活。
–compatible-hits-norm ：只计算与一些参考转录本相容的fragments,默认激活。
加上参考基因组注释文件：AT.gff
最后加上每个样本（处理）的cuffquant产生的abundances.cxb文件，样本的每个重复之间用逗号”，“分割；样本之间则由空格分割。

转录本差异表达分析——Cuffdiff：分析差异表达基因的工具。
9.1 使用方法：

/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffdiff -o diff_out -b bowtie2index/genome.fa -p 8 -L C1,C2 -u merged_asm/merged.gtf ./C1_thout/accepted_hits.bam ./C2_thout/accepted_hits.bam

9.2 参数说明：

-o ：指定输出目录
-b ：参考基因组序列文件
-p ：指定线程数
-L ：为每个样本标上名称
-u：-u命令指cuffdiff对回帖的基因组中多个位置的read进行一个初步的估计，然后加权分配到各个基因组位置。而不是简单的平均分配，其功能与Cufflinks中的u命令相同。
加上合并后的转录本：merged.gtf;由cuffmerge产生。
最后是TopHat产生的样本的bam文件，如果一个样本有多个生物学重复，那么我们需要提供每个重复的bam文件，文件名之间以逗号隔开并且样本名应与-L参数相对应。

转录本与参考基因组注释文件比较——Cuffcompare，发现新基因，转录本
10.1 使用方法：cuffcompare -i gtf_out_list.txt -r genes.gtf
10.2 参数说明：-i ：输入文件，是cufflinks组装转录本的结果文件——transcripts.gtf的列表；

其中gtf_out_list.txt是由find . -name transcripts.gtf > gtf_out_list.txt命令产生的集合了所有样本转录本文件的列表。
-o ：指定输出文件的前缀，如果没有指定默认为cuffcmp。
-r ：指定参考基因组注释文件。
注：结果文件大部分位于cmp_out（自己先建立好）目录中，统计汇总所有转录本的比较情况；而单个样本转录本的比较结果文件：cuffcmp.transcripts.gtf.tmap 和 cuffcmp.transcripts.gtf.refmap 分别位于样本的cufflinks运行结果transcripts.gtf所在目录中，统计单个样本的比较情况以鉴定新转录本。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,884评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,347评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,435评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,509评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,611评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,837评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,987评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,730评论 0赞 267
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,194评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,525评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,664评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,334评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,944评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,764评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,997评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,389评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,554评论 2赞 349

[转载]RNAseq: TopHat2 + Cufflinks分析流程

推荐阅读更多精彩内容