分析流程

基因组重测序数据目的:需要检测基因组中的变异,找到并定位这些突变位点

条件:参考基因组、重测序数据、

分析流程:

SS

Step 1  下载sra文件

使用软件:Aspera

Aspera用法:ascp [参数] 目标文件 保存路径

步骤:

1、建立Seq文件夹(在home目录下)

mkdir ~/Seq

2、下载

ascp -T -i /home/raewyn/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR194/SRR1947852/SRR1947852.sra ~/Seq/


参数详解:

-T        不进行加密。若不添加此参数,可能会下载不了。

-i string      输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,

使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。

-k 1        支持断点续传

-l string      设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。

若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。

FTP下载地址:ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR194/SRR1947852/SRR1947852.sra

改为anonftp@ftpprivate.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR194/SRR1947852/SRR1947852.sra

Step 2 解压SRA文件为fastq

语法:fastq-dump --split-files 文件名或 fastq-dump --gzip --split-files 文件名(解压为gz文件,节省空间)

即:fastq-dump --gzip --split-files SRR1947852.sra


双端测序一般有两个文件(也可通过某种规则把两个文件合并成一个)。第一个文件与第二个文件的行数完全一样,且测序序列的排列顺序完全一致。 

在第一个文件中,描述信息的结尾是“/1”,表示是双端测序的一端;第二个文件中同样位置/行数的相对应的测序序列的描述信息则以“/2”结尾,表示是双端测序的另一端 。

Step 3 去接头,低质量碱基

使用软件:fastqc

格式:fastqc 【处理的文件文件名】

步骤:

1、建立一个放置结果的文件夹(在Seq目录下)

mkdir ~/Seq/result

2、用fastqc去接头及低质量碱基

fastqc SRR1947852_1.fastq.gz -o ~/Seq/result

-o 指定生成到某个文件夹

3、生成了一个fastqc.html和一个fastqc.zip文件

Step 4  比对

Reads比对到参考基因组

使用软件:bwa

语法:

bwa index 参考基因组(建立索引) ,

bwa 参考基因组 处理文件 > 比对后的文件名( bwa的使用需要两种输入文件:①索引的Reference genome data(fasta格式 .fa, .fasta, .fna)②Short reads data (fastaq格式 .fastaq, .fq))

步骤:

1、解开压缩包

gunzip GCA_000969545.1_ASM96954v1_genomic.fna.gz

2、bwa index建立索引(在bwa_test目录下)

bwa index  GCA_000969545.1_ASM96954v1_genomic.fna

3、reads比对到参考序列(比对后的文件为   )

bwa mem GCA_000969545.1_ASM96954v1_genomic.fna SRR1947852_1.fastq.gz SRR1947852_2.fastq.gz > seq_sam_1947852.sam

即可得到一个sam文件

Step 5 排序索引后的比对结果 (将sam转为bam格式)

使用软件:samtools

语法:samtools view [options]| [region1 [...]]

1、为参考基因组建立索引,生成了prefix.fai文件

samtools faidx GCA_000969545.1_ASM96954v1_genomic.fna

语法详解:

语法

2、sam文件转为bam文件

samtools view -bhS -t GCA_000969545.1_ASM96954v1_genomic.fna.fai -o seq_bam_1947852.bam seq_sam_1947852.sam

语法详解:

vie

-b output BAM 默认下输出是 SAM 格式文件,该参数设置输出 BAM 格式

-h print header for the SAM output 默认下输出的 sam 格式文件不带 header,该参数设定输出

sam文件时带 header 信息

-S input is SAM 默认下输入是 BAM 文件,若是输入是 SAM 文件,则最好加该参数,否则有

时候会报错

-T FILE reference sequence file (force -S) [null] 使用序列fasta文件作为header的输入

3、为bam文件排序,sort只能为bam文件排序,而不能为sam

samtools sort seq_bam_1947852.bam -o seq_bam_1947852.sorted

4、为排序的bam文件建立索引. *.bai文件

samtools index seq_bam_1947852.sorted

5、生成bcf文件

samtools mpileup -gf GCA_000969545.1_ASM96954v1_genomic.fna seq_bam_1947852.sorted > seq_1947852.bcf

语法详解:

samtools mpileup  生成bcf文件,bcf文件是二进制文件

-g, --BCF 生成bcf格式文件;

-f , --fasta-ref FILE参考序列(fasta format)的索引文件名;

Step 6 变异检测

软件:bcftools

步骤:

1、变异检测

bcftools call -vm seq_1947852.bcf -o seq_1947852.variants.bcf

2、将bcf文件转换为vcf文件

bcftools view -v snps,indels seq_1947852.variants.bcf > seq_1947852.snps.vcf

3、变异位点的过滤

bcftools filter -o seq_1947852.snps.filtered.vcf -i 'QUAL>20 && DP>5' seq_1947852.snps.vcf

简单过滤:QUAL小于等于20,DP值小于等于5的位点

-i – include 只保留满足该条件的位点

Step 7 变异基因注释

软件:annovar

1、生成annovar输入文件

convert2annovar.pl -format vcf4 seq_1947852.snps.filtered.vcf > seq_1947852.snps.avinput

2、注释变异基因位点

annotate_variation.pl --geneanno --dbtype refGene --buildver 1947852-genome seq_1947852.snps.avinput  ~/Biosoft/annovar/humandb/

--geneanno: 采用gene-based annotation注释模式;

--dbtype :数据库为refGene;还有knowGene,ensGene等

 --buildver:为参考基因组版本,需特别注意

没有结果,需要自定义数据库(后面有讲解)

3、最后为数据库所在目录,生成avinput.variant_function和avinput.exonic_variant_function后缀的两个结果文件

Annovar结果解析

①avinput.variant_function文件

包括所有突变信息:

第一列:variant effects, 变异分类,如intergenic, intronic, nonsynonymous SNP, frameshift deletion, large-scale duplication等

第二列:基因名或Symbol

其余列:与avinput输入文件相同:染色体、start、end、ref_nt、obs_nt等

②avinput.exonic_variant_function文件

包括外显子突变信息

第一列:该变异在input文件的行号

第二列:对编码基因的影响,frameshift, synonymous or nonsynonymous等

第三列:被影响的基因或转录本,包括染色体、基因起始、核苷酸和氨基酸突变的

情况

其余列:同输入文件其余列:与avinput输入文件相同:染色体、start、end、ref_nt、obs_nt等


自定义数据库

1、下载基因组gff文件

wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/969/545/GCA_000969545.1_ASM96954v1/GCA_000969545.1_ASM96954v1_genomic.gff.gz

gunzip GCA_000969545.1_ASM96954v1_genomic.gff.gz

2:、gff文件转为GenePred文件

wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/gff3ToGenePred

chmod 777 gff3ToGenePred

./gff3ToGenePred -useName GCA_000969545.1_ASM96954v1_genomic.gff 1947852-genome_refGene.txt

3、为建立每个基因与编码序列对应文件

retrieve_seq_from_fasta.pl -format refGene -seqfile GCA_000969545.1_ASM96954v1_genomic.fna -outfile 1947852-genome_refGeneMrna.fa 1947852-genome_refGene.txt

5、拷贝数据库文件到annovar安装目录humandb文件夹下

cp 1947852-genome_refGene* ~/Biosoft/annovar/humandb/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容