1 原始材料准备
双端测序材料: R1.fq R2.fq
参考基因组: MH63.fa
基因组注释文件: gff gft gff3
2 软件准备
fastqc : 质量检测
Trimmomatic: 质控
BWA: 比对软件
samtools: 操作bam 文件
picard: gatk4.0 已经包含
gatk: 变异检测
snpEff: 注释vcf文件
3 流程记录
1 原始数据质量控制 fastqc -0 保存的文件夹 -t 线程 最后是所有要做的文件
2 使用Trimmomatic 去接头和质量差的文件
java -jar /public/home/name/tool/Trimmomatic-0.36/trimmomatic-0.36.jar PE -phred33 -threads 60 -trimlog logfile R1.fastq R2.fastq clean_data/R1.fq clean_data/R1.unpaired.fq clean_data/R2.fq clean_data/R2.unpaired.fq ILLUMINACLIP:/public/home/name/tool/Trimmomatic-0.36/adapters/TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50
3 使用 fastqc 再检查一遍质控后的质量
4 搭建参考基因组
bwa index fasta MH63.fasta
5 把read 比对到参考基因组上
bwa mem -t 80 -R '@RG\tID:foo_lane\tPL:illumina\tLB:library\tSM:BSA' MH63.fasta R1.fq R2.fq > mut.sam
6 用samtools 直接转化为BAM文件(二进制文件)
samtools view -@ 60 -S -b mut.sam > mut.bam
7 排序
samtools sort sample.bam sample.sorted
8 使用picard 标记重复序列
java -jar /public/home/name/tool/picard-2.jar MarkDuplicates I=mut.sorted.bam O=mut.sorted.markdup.bam M=mut.markdup_metrics.txt
也可以直接用gatk里面的picard
gatk MarkDuplicates -I mut.sorted.bam -O mut.sorted.markdup.bam -M mut.sorted.markdup_matrix.txt
9 为 sample_name.sorted.markdup.bam 创建索引文件
samtools index /public/home/name/requence/clean_data/secondtime/mut.sorted.markdup.bam
10 再对参考基因组进行索引
java -jar CreateSequenceDictionary.jar R= Homo_sapiens_assembly18.fasta O= Homo_sapiens_assembly18.dict
也可以直接使用gatk
gatk CreateSequenceDictionary -R MH63.fasta
还有一个
samtools faidx Homo_sapiens_assembly18.fasta
11 GATK 进行snp-calling
gatk HaplotypeCaller -R MH63.fasta -I mut.sorted.markdup.bam -L Chr07 -A QualByDepth -A RMSMappingQuality -A MappingQualityRankSumTest -A ReadPosRankSumTest -A FisherStrand -A StrandOddsRatio -A Coverage -O mut.vcf
12 在snpEFF 中注释
java -jar snpEff.jar MH63 data/mut.vcf > mut.eff.vcf
13 使用IGV可视化检查具体的变异情况