【WES02】WES实战

WORKFLOW

1.Quality control————FASTQC、MultiQc
2.Reads mapping——BWA
(3.Mapped reads processing)——RmDup
4.Variants calling——— FreeBayes、
5.Variants annotation and report———SnpEff、GEMINI load

QUALITY CONTROL

1.Inspect a raw sequence file

一共6个样本(一家三口 双端测序)

wget -b https://zenodo.org/record/3243160/files/father_R1.fq.gz
wget -b https://zenodo.org/record/3243160/files/father_R2.fq.gz
wget -b https://zenodo.org/record/3243160/files/mother_R1.fq.gz
wget -b https://zenodo.org/record/3243160/files/mother_R2.fq.gz
wget -b https://zenodo.org/record/3243160/files/proband_R1.fq.gz
wget -b https://zenodo.org/record/3243160/files/proband_R2.fq.gz

2.Assess the Read Quality

# 使用FastQC软件对单个fastq文件进行质量评估,结果输出到qc/文件夹下
qcdir= ~/project/boy/afterqc
fqdir=~/project/boy/qc

fastqc -t 3 -o $qcdir $fqdir/father_R1.fq.gz

# 多个数据质控
fastqc -t 2 -o $qcdir $fqdir/*.fastq.gz
##外显子组的话代码是
fastqc -t 10 -o $qcdir $fqdir/*.fq.gz

# 使用MultiQc整合FastQC结果
multiqc *.zip
image.png

image.png
  • Per base sequence quality
    每一个位置reads碱基质量箱式图
  • Per sequence quality scores
    image.png
  • Per base sequence content


    有黄色感叹号说明数据不是特别好;因为一开始AT、GC的百分含量不相等
  • Per sequence GC content


    形状异常的GC分布图【与之前转录组的样本不同,通常认为样品读数的GC含量呈非正态分布,暗示可能存在污染。 但是,在这里,处理来自捕获的外显子组的测序数据,即,这些读数并不代表来自基因组的随机序列,而是代表偏向的选择。】
点开其中一个样本的FastQC可以看到一个红X
  • Adapter


    质量很好,可以不做trim
  • N Content


    N的比例小于<5%

所以不用进行过滤

二、Read Mapping————Bwa

三、Variant calling

Free Bays

1 variants
vcf可视化:bcftools norm.

四、ANNOTATION

SnpEff

image.png

GEMINI load

主要是在八号染色体上(可我找到的都是良性的)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容