[转载]RNA-seq :TopHat2 + Cufflinks分析流程
- 测序数据质量控制:fastqc软件
- 使用方法:
~/software/fastQC/FastQC/fastqc -o ~/data/liyan/filename_fastqc filename.fq >> filename.log
- 参数说明:
-o: 输出文件所在目录,并且是已经存在的目录,如:filename_fastqc
--noextract: 不解压缩输出文件 - 最后加上需要fastqc的fastq文件:filename.fq ;
- 重定向结果到日志文件:filename.log, 以便查看。
filename: 表示是一个样品的一个生物学重复,一般有多个样品,每个样品有多个重复,如:C1_R1; 如果是双端测序则后面会加上数字,如:filename_1.fq和filename_2.fq
- reads trim工具——trimmomatic
2.1 使用方法:
java -jar ~/software/Trimmomatic-0.32/trimmomatic-0.32.jar SE -threads 5 -phred33 -trimlog filename_trimmomatic.log filename.fq filename_out.fq ILLUMINACLIP:adapter.fa:2:30:10 SLIDINGWINDOW:4:15 MINLEN:36
2.2 参数说明
SE:指定单端测序,PE:双端测序
-threads
:指定线程数-phred33
:指定fastq文件的质量格式,或者:-phred64-trimlog
:指定日志文件,后加上输入和输出文件-
ILLUMINACLIP:adapter.fa:2:30:10
中- adapter.fa为adapter文件,
- 2:允许的最大mismatch 数,
- 30:palindrome模式下匹配碱基数阈值,
- 10:simple模式下的匹配碱基数阈值
SLIDINGWINDOW:4:15 MINLEN:36
中:滑动窗口的size是4个碱基,其平均碱基质量小于15,则切除。MINLEN:36
:最低reads长度为36
- bowtie2建立参考基因组的索引——bowtie2-build
3.1 使用方法:
bowtie2-build <要生成的索引文件前缀名>;比如:
nohup /home/cuckoo/software/bowtie2-2.2.3/bowtie2-build genome.fa bowtie2index/genome>>bowtie2.log &
3.2 参数说明:
- genome.fa是fasta文件;
- genome是要生成的索引文件的前缀名;
- bowtie2index是一个文件夹,用来存放索引文件,方便日后查看和使用;
注意:程序运行完后genome.fa文件要放在bowtie2index索引目录中,tophat2软件才能正确运行。
- reads mapping到参考基因组——tophat2软件:基于bowtie2
4.1 使用方法:
/home/cuckoo/software/tophat-2.0.12.Linux_x86_64/tophat2 -p 8 -G /home/cuckoo/data/liyan/train/genes.gtf -o filename_thout/ /home/cuckoo/data/liyan/train/bowtie2index/genome /home/cuckoo/data/liyan/train/filename.fq >filenametophat.log
4.2 参数说明:
- -p :指定线程数,默认为1
- -G :指定已有的基因组注释信息,gtf或gff文件;
- -o :指定输出目录,默认为”./tophat_out“;
- 后面加上索引文件:与前面的bowtie2建立的索引相对应,只取前缀名。
- 最后加上fastq文件:filename.fq;如果是双端测序则是filename_1.fq和filename_2.fq 两个文件。
- 转录本组装——Cufflinks:Cufflinks是一套拼接转录本,定量表达量。
5.1 使用方法:
/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cufflinks -p 8 -o filename_clout filename_thout/accepted_hits.bam >filename_cufflinks.log
5.2 参数说明:
- -p :指定线程数;
- -o :指定输出文件所在目录;
- 后面跟上Tophat2中生成的bam文件:
- 转录本合并——Cuffmerge
6.1 使用方法:
/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffmerge -g genes.gtf -s /home/cuckoo/data/liyan/train/bowtie2index/genome.fa -p 8 assemblies.txt
6.2 参数说明:
- -g :参考基因组注释文件
- -s :参考基因组序列文件
- -p :指定线程数
- -o :指定输出文件merged.gtf所在目录,默认情况下是 merged_asm
- 最后assemblies.txt :一个包含每个样品(重复)拼接后的gtf文件的列表;如下:两个文件分别是在上一步中生成的样品的转录本注释文件。
./s0924fb_clout/transcripts.gtf
./sCal27_clout/transcripts.gtf
- 基因和转录本表达定量——cuffquant
7.1 使用方法:
/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffquant -o sample_quant -p 8 -u AT.gff sample_thout/accepted_hits.bam
7.2 参数说明:
- -o :指定结果输出目录:包含结果文件abundances.cxb
- -p :指定线程数
- -u :指定对比对上基因组上多个位置的reads进行统计分析。
- 加上参考基因组注释文件:AT.gff
- 最后加上Tophat2产生的该样本的比对结果文件:accepted_hits.bam
- 基因和转录本表达水平标准化——cuffnorm
8.1 使用方法:
/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffnorm -o cuffnorm_out -p 8 -L 0h_1,12h_CK1,12h_E1 AT.gff /data/disk2/liyan/AT/0h_1_quant/abundances.cxb /data/disk2/liyan/AT/12h_CK1_quant/abundances.cxb /data/disk2/liyan/AT/12h_E1_quant/abundances.cxb
8.2 参数说明:
- -o :指定结果输出目录
- -p :指定线程数
- -L :为每个样本(处理)作标记
- –total-hits-norm :计算所有的fragments,包括与所有的参考转录本不容的,默认不激活。
- –compatible-hits-norm :只计算与一些参考转录本相容的fragments,默认激活。
- 加上参考基因组注释文件:AT.gff
- 最后加上每个样本(处理)的cuffquant产生的abundances.cxb文件,样本的每个重复之间用逗号”,“分割;样本之间则由空格分割。
- 转录本差异表达分析——Cuffdiff:分析差异表达基因的工具。
9.1 使用方法:
/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffdiff -o diff_out -b bowtie2index/genome.fa -p 8 -L C1,C2 -u merged_asm/merged.gtf ./C1_thout/accepted_hits.bam ./C2_thout/accepted_hits.bam
9.2 参数说明:
- -o :指定输出目录
- -b :参考基因组序列文件
- -p :指定线程数
- -L :为每个样本标上名称
- -u:-u命令指cuffdiff对回帖的基因组中多个位置的read进行一个初步的估计,然后加权分配到各个基因组位置。而不是简单的平均分配,其功能与Cufflinks中的u命令相同。
- 加上合并后的转录本:merged.gtf;由cuffmerge产生。
- 最后是TopHat产生的样本的bam文件,如果一个样本有多个生物学重复,那么我们需要提供每个重复的bam文件,文件名之间以逗号隔开并且样本名应与-L参数相对应。
- 转录本与参考基因组注释文件比较——Cuffcompare,发现新基因,转录本
10.1 使用方法:cuffcompare -i gtf_out_list.txt -r genes.gtf
10.2 参数说明:-i :输入文件,是cufflinks组装转录本的结果文件——transcripts.gtf的列表;
- 其中gtf_out_list.txt是由find . -name transcripts.gtf > gtf_out_list.txt命令产生的集合了所有样本转录本文件的列表。
- -o :指定输出文件的前缀,如果没有指定默认为cuffcmp。
- -r :指定参考基因组注释文件。
注:结果文件大部分位于cmp_out(自己先建立好)目录中,统计汇总所有转录本的比较情况;而单个样本转录本的比较结果文件:cuffcmp.transcripts.gtf.tmap 和 cuffcmp.transcripts.gtf.refmap 分别位于样本的cufflinks运行结果transcripts.gtf所在目录中,统计单个样本的比较情况以鉴定新转录本。