前言
首先,这篇文章介绍的文件格式格式:基因组fasta、测序数据fasta、基因组不同软件构建的索引文件index、fastq、sam、bam、bed、gtf、gff、vcf、bigwig、wiggle
| fasta格式:
测序数据fa格式:一般为fa.gz文件
## 文件格式可为 #.fasta #.fa #.fna #.faa
## >gi| gi号 |来源标识| 序列标识 | 序列描述
>gi|187608668 | ref | NM001043364.2 | Bombyx mori moricin(Mor),mRNA
AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCT
GGTGTCATGTAGTACAGCCGCTCC
基因组参考序列fa格式:
fxue@pc-System-Product-Name:/public/reference/genome/hg38$ ls -lh
total 3.1G
-rwxr-xr-x 1 root root 3.1G 7月 5 00:42 hg38.fa
-rwxr-xr-x 1 root root 19K 7月 4 23:59 hg38.fa.fai
## .fa文件内容 序列中有N 大写字母 小写字母
>chr1
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
CACCTCAGGAGCtgggggtggtggtgggggcggtgggggtggtgTTAGTA
......
>chr10
......
>chr11
......
>chr11_KI270721v1_random
......
## .fa.fai文件内容 lie
## 编号 xx号 xx. xx. xx. xx. xx.
chr1 248956422 6 50 51
chr10 133797422 253935564 50 51
chr11 135086622 390408942 50 51
chr11_KI270721v1_random 100316 528197322 50 51
chr12 133275309 528299652 50 51
chr13 114364328 664240475 50 51
chr14 107043718 780892097 50 51
chr14_GL000009v2_random 201709 890076715 50 51
| bowti构建的索引文件:
-rwxr-xr-x 1 root root 974M 7月 5 04:40 hg38.1.bt2
-rwxr-xr-x 1 root root 728M 7月 5 04:30 hg38.2.bt2
-rwxr-xr-x 1 root root 15K 7月 5 04:47 hg38.3.bt2
-rwxr-xr-x 1 root root 728M 7月 5 04:47 hg38.4.bt2
-rwxr-xr-x 1 root root 13K 7月 5 04:47 hg38.bowtie_index.log
-rwxr-xr-x 1 root root 974M 7月 5 04:21 hg38.rev.1.bt2
-rwxr-xr-x 1 root root 728M 7月 5 04:12 hg38.rev.2.bt2
| bwa构建的索引文件:
-rwxr-xr-x 1 root root 21K 7月 5 05:47 hg38.amb
-rwxr-xr-x 1 root root 22K 7月 5 05:47 hg38.ann
-rwxr-xr-x 1 root root 6.5K 7月 5 05:50 hg38.bwa_index.log
-rwxr-xr-x 1 root root 3.0G 7月 5 05:47 hg38.bwt
-rwxr-xr-x 1 root root 766M 7月 5 05:50 hg38.pac
-rwxr-xr-x 1 root root 1.5G 7月 5 05:37 hg38.sa
| hisat构建的索引文件:
-rwxr-xr-x 1 root root 974M 7月 5 03:13 genome.1.ht2
-rwxr-xr-x 1 root root 728M 7月 5 03:05 genome.2.ht2
-rwxr-xr-x 1 root root 15K 7月 5 03:13 genome.3.ht2
-rwxr-xr-x 1 root root 728M 7月 5 03:19 genome.4.ht2
-rwxr-xr-x 1 root root 1.3G 7月 5 03:37 genome.5.ht2
-rwxr-xr-x 1 root root 741M 7月 5 03:26 genome.6.ht2
-rwxr-xr-x 1 root root 8 7月 5 03:26 genome.7.ht2
-rwxr-xr-x 1 root root 8 7月 5 03:37 genome.8.ht2
-rwxr-xr-x 1 root root 1.3K 7月 5 03:37 make_hg38.sh
| salmon构建的索引文件:
fxue@pc-System-Product-Name:/public/reference/index/salmon/hg38_index$ ls -lhtotal 3.1G
-rwxr-xr-x 1 root root 1.7G 7月 14 21:50 hash.bin
-rwxr-xr-x 1 root root 357 7月 14 21:49 header.json
-rwxr-xr-x 1 root root 115 7月 14 21:52 indexing.log
-rwxr-xr-x 1 root root 9.4K 7月 14 21:52 quasi_index.log
-rwxr-xr-x 1 root root 121 7月 14 21:49 refInfo.json
-rwxr-xr-x 1 root root 36M 7月 14 21:52 rsd.bin
-rwxr-xr-x 1 root root 1.1G 7月 14 21:51 sa.bin
-rwxr-xr-x 1 root root 287M 7月 14 21:51 txpInfo.bin
-rwxr-xr-x 1 root root 96 7月 14 21:49 versionInfo.json
| star构建索引文件
| subread构建的索引文件:
-rwxr-xr-x 1 root root 766M 7月 5 06:27 hg38.00.b.array
-rwxr-xr-x 1 root root 5.0G 7月 5 06:45 hg38.00.b.tab
-rwxr-xr-x 1 root root 29K 7月 5 06:45 hg38.files
-rwxr-xr-x 1 root root 0 7月 5 06:45 hg38.log
-rwxr-xr-x 1 root root 14K 7月 5 06:27 hg38.reads
| fastq格式文件:
第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
第二行为序列信息
第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同
## 文件格式可为 #.fastq #.fq
-rwxr-xr-x 1 root root 300308 7月 4 23:57 7E5240_L1_A001.L1_1_fastqc.html
-rwxr-xr-x 1 root root 401515 7月 4 23:57 7E5240_L1_A001.L1_1_fastqc.zip
-rwxr-xr-x 1 root root 2899602923 7月 4 23:57 7E5240_L1_A001.L1_1.fastq.gz
## 打开 7E5240_L1_A001.L1_1.fastq.gz
## @仪器号:运行号:flowcell ID号:Lane号:Tile号:X坐标:Y坐标 Read号:是否过滤:质控号:index序列
@HISEQ: 820 :CBD38ANXX : 1 : 1101 : 1233: 2135 1 : N : 0 : ATCACGA
CTGAGCTGCTCCTTCACCCAGACCTCGATATGCTTGTTCCACTTCATGGTGAACACATAGAAGGCATAGGCCAGCAGCAGCAGNAGG
+
BBBBBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF</<<<
| 基因组索引文件格式:gtf2文件
GTF(Gene Transfer Format)格式是借鉴于GFF2格式,也被称为GFF2.5,大部分字段的定义是和GFF2相同的,只是每行的第九列必须带有如下四个域,具体为gene_id value; transcript_id value; 这样的设计是为了适应一个基因的多个转录本这种情况。GTF格式主要用来注释基因:
[图片上传失败...(image-8d42c2-1536734614697)]
| gff3文件
gff主要用来注释基因组
序号 | GTF | GFF | ||||
---|---|---|---|---|---|---|
1 | Sequid | 参考序列ID | Seqname | 序列名称 | 染色体ID/contig ID | |
2 | Source | 注释来源 | 指明产生此文件的软件或方法 | Source | 注释来源 | 预测软件名/公共数据库 |
3 | Type | 类型 | ||||
4 | Start | 开始位点 | 从1开始计数 | Start | 开始位点 | 从1开始计数 |
5 | End | 结束位点 | End | 结束位点 | ||
6 | Score | 得分 | Feature | 结构特点 | ||
7 | Strand | 正/负链 | Score | 得分 | ||
8 | Phase | 步进 | + 正链,- 负链, ·无需指定正负链 | Strand | 正/负链 | + 正链,- 负链 |
9 | Attributes | 属性 | frame | 密码子偏移 |
##两种格式的转换
#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3
| SAM文件
SAM(sequence alignment/map format):由标头注释部分和比对部分组成
| sam标头注释部分
## @HD,说明符合标准的版本、对比序列的排列顺序
@HD VN:1.3 SO:coordinate
@SQ SN:chr10 LN:135534747 ## LN:参考序列的长度
## @SQ,参考序列说明
@SQ SN:chr7_gl000202_random LN:40103
@SQ SN:chrUn_gl000249 LN:38502
@SQ SN:chrX LN:155270560
## @RG,比对上的序列(read)说明
## @CO,任意的说明信息。
## @PG,使用的比对程序说明
@PG ID:bwa PN:bwa VN:0.7.15-r1140 CL:/home/jianmingzeng/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M /home/jianmingzeng/reference/index/bwa/hg19 control.clean.R1.fq.gz control.clean.R2.fq.gz
| 比对部分
##字段 [ 1 ] [2 ] [ 3 ] [ 4 ] [5] [ 6 ] [ 7 ] [ 8 ] [ 9 ]
D00691:39:C7HGRANXX:7:1102:7445:18770 99 chr10 93614 60 126M = 93621 133 D00691:39:C7HGRANXX:7:1102:7445:18770 147 chr10 93621 60 126M = 93614 -133
D00691:39:C7HGRANXX:7:2302:14294:49245 323 chr10 94741 5 56H70M chr9 140136176 0
##[ 10. ] [ 11 ]
CCAC...CCTC BBBB...FFFF NM:i:0 MD:Z:126 AS:i:126 XS:i:106 XA:Z:chr18,-75762,126M,4;
11个字段 | 名称 | 含义 | 解释 |
---|---|---|---|
[1] | QName | 比对片段的编号 | |
[2] | Flag | 常用&高效 保存多个布尔特征值 | |
[3] | Rname | 比对到参考序列上的染色体号 | 若无法比对,则是* |
[4] | Position | 比对上的位置 | 从1开始计数,未比对上则为0 |
[5] | Mapq | 比对的质量分数 | 越高说明该read比对到参考基因组上的位置就越准确 |
[6] | Cigar | 简要比对信息表达式 | 其以参考序列为基础,使用数字加字母表示比对结果。 |
[7] | Mrnm(chr) | 下一片段比对上的参考序列编号 | |
[8] | Mate position | 下一片段比对上的位置 | |
[9] | Isize | Template的长度 | 如果不可用,此处为0 |
[10] | Sequence | ||
[11] |
[6] | 解释 | 翻译 |
---|---|---|
M | match或 mismatch | |
I | Insert | |
D | Deletion | |
N | Skipped | |
S | Soft cliping | |
H | Hard ciliping | |
P | Padding | |
= | Match | |
X | Mismatch | 错配,位置一一对应 |
[11] | 解释 | 翻译 |
---|---|---|
AS | Alignment score generated by aligner | 比对得分 |
NM | Edit distance to the reference, including ambiguous bases but excluding clipping | 对引用的编辑距离,包括不明确的基,但不包括剪切 |
MD | String for mismatching positions. Regex : [0-9]+(([A-Z]|^[A-Z]+)[0-9]+)*10. | |
NH | Number of reported alignments that contains the query in the current record | |
X? | Reserved fields for end users |
| bam文件
| bed文件
bed(Browser Extensible Data):是ucsc 的genome browser的一个格式,描述注释的数据。bed有3个要求的字段(基本列)和9个额外的字段(附加列)
#[1] [ 2 ] [ 3 ] [5]
chrM 13357 13651 trf 2 162.5 2 67 19 173 47 0 0 52 1.00 TA
chrM 13436 13585 trf 7 23.9 7 66 28 61 46 0 0 53 1.00 ATTATAA
chrM 13406 13658 trf 9 28.7 9 66 15 63 45 0 0 54 0.99 TATTATATT
## 可选列
#1 name #feature的名字
#2 score 0-1000的分值,如果track线在注释时属性设置为1,那么这个分值会决定显示的灰度水平,数字越大,灰度越高
#3 strand定义链的+/—
#4 thickStart #feature的起始
#5 thickEnd #feature的终止
#6 termRgb R, G, B (eg. 255, 0, 0), 如果track line itemRgb属性是设置为'On”, 这个RBG 值将 决 定数据的显示的颜色在BED 线。
#7 blockCount #exon个数
#8 blockSize #每个exon的大小
#9 blockStarts #以chromStart为起点的各个exon的起始点
| Bigbed
| vcf文件
vcf(Variant Call Format):格式是用于表示突变信息的文本格式,可以用来表示SNV(single nucleotide variants),INDEL( insertions/deletions), CNV(copy number variants )and SV(structural variants)等。VCF格式同样是分为两大部分,一部分是注释描述信息,一部分是具体的突变信息,其中注释信息是以##开头的。
来源:samtools、GATK
应用:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12878
chr1 873762 . T G 5231.78 PASS AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 A G 3931.66 PASS AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL 1/1:0,105:94:99:255,255,0
chr1 899282 rs28548431 C T 71.77 PASS AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL 0/1:1,3:4:25.92:103,0,26
chr1 974165 rs9442391 T C 29.84 LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL 0/1:14,4:14:60.91:61,0,255
#1 CHROM 即chromosome, 染色体名称;
#2 POS 即position, 发生突变的参考序列的位置(从1开始计数);
#3 ID 突变的名称;
#4 REF 参考序列POS上的碱基;
#5 ALT 发生突变的碱基,多个的话以,连接, 可选符号为ATCGN*,大小写敏感;
#6 QUAL 基于Phred格式的表示ALT的质量,也可以理解为可靠性;
#7 FILTER 过滤后的状态,即按照可靠性进行筛选;
#8 INFO 额外信息,可结合注释描述信息进行理解
| Bigwig/Wiggle
https://wiki.bits.vib.be/index.php/Category:Formats
未完待续....