生信数据分析常见格式（一）

前言

首先，这篇文章介绍的文件格式格式：基因组fasta、测序数据fasta、基因组不同软件构建的索引文件index、fastq、sam、bam、bed、gtf、gff、vcf、bigwig、wiggle

image.png

| fasta格式：

测序数据fa格式：一般为fa.gz文件

## 文件格式可为   #.fasta  #.fa  #.fna  #.faa
##  >gi|  gi号   |来源标识|   序列标识     |    序列描述
    >gi|187608668 | ref | NM001043364.2 | Bombyx mori moricin(Mor),mRNA
    AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCT
    GGTGTCATGTAGTACAGCCGCTCC

基因组参考序列fa格式：

    fxue@pc-System-Product-Name:/public/reference/genome/hg38$ ls -lh
    total 3.1G
    -rwxr-xr-x 1 root root 3.1G 7月   5 00:42 hg38.fa
    -rwxr-xr-x 1 root root  19K 7月   4 23:59 hg38.fa.fai
## .fa文件内容  序列中有N 大写字母 小写字母
    >chr1
    NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
    CACCTCAGGAGCtgggggtggtggtgggggcggtgggggtggtgTTAGTA
    ......
    >chr10
    ......
    >chr11
    ......
    >chr11_KI270721v1_random
    ......
## .fa.fai文件内容 lie
##  编号       xx号          xx.     xx.    xx.     xx.     xx. 
    chr1    248956422       6       50      51
    chr10   133797422       253935564       50      51
    chr11   135086622       390408942       50      51
    chr11_KI270721v1_random 100316  528197322       50      51
    chr12   133275309       528299652       50      51
    chr13   114364328       664240475       50      51
    chr14   107043718       780892097       50      51
    chr14_GL000009v2_random 201709  890076715       50      51

| bowti构建的索引文件：

-rwxr-xr-x 1 root root 974M 7月   5 04:40 hg38.1.bt2
-rwxr-xr-x 1 root root 728M 7月   5 04:30 hg38.2.bt2
-rwxr-xr-x 1 root root  15K 7月   5 04:47 hg38.3.bt2
-rwxr-xr-x 1 root root 728M 7月   5 04:47 hg38.4.bt2
-rwxr-xr-x 1 root root  13K 7月   5 04:47 hg38.bowtie_index.log
-rwxr-xr-x 1 root root 974M 7月   5 04:21 hg38.rev.1.bt2
-rwxr-xr-x 1 root root 728M 7月   5 04:12 hg38.rev.2.bt2

| bwa构建的索引文件：

-rwxr-xr-x 1 root root  21K 7月   5 05:47 hg38.amb
-rwxr-xr-x 1 root root  22K 7月   5 05:47 hg38.ann
-rwxr-xr-x 1 root root 6.5K 7月   5 05:50 hg38.bwa_index.log
-rwxr-xr-x 1 root root 3.0G 7月   5 05:47 hg38.bwt
-rwxr-xr-x 1 root root 766M 7月   5 05:50 hg38.pac
-rwxr-xr-x 1 root root 1.5G 7月   5 05:37 hg38.sa

| hisat构建的索引文件：

-rwxr-xr-x 1 root root 974M 7月   5 03:13 genome.1.ht2
-rwxr-xr-x 1 root root 728M 7月   5 03:05 genome.2.ht2
-rwxr-xr-x 1 root root  15K 7月   5 03:13 genome.3.ht2
-rwxr-xr-x 1 root root 728M 7月   5 03:19 genome.4.ht2
-rwxr-xr-x 1 root root 1.3G 7月   5 03:37 genome.5.ht2
-rwxr-xr-x 1 root root 741M 7月   5 03:26 genome.6.ht2
-rwxr-xr-x 1 root root    8 7月   5 03:26 genome.7.ht2
-rwxr-xr-x 1 root root    8 7月   5 03:37 genome.8.ht2
-rwxr-xr-x 1 root root 1.3K 7月   5 03:37 make_hg38.sh

| salmon构建的索引文件：

fxue@pc-System-Product-Name:/public/reference/index/salmon/hg38_index$ ls -lhtotal 3.1G
-rwxr-xr-x 1 root root 1.7G 7月  14 21:50 hash.bin
-rwxr-xr-x 1 root root  357 7月  14 21:49 header.json
-rwxr-xr-x 1 root root  115 7月  14 21:52 indexing.log
-rwxr-xr-x 1 root root 9.4K 7月  14 21:52 quasi_index.log
-rwxr-xr-x 1 root root  121 7月  14 21:49 refInfo.json
-rwxr-xr-x 1 root root  36M 7月  14 21:52 rsd.bin
-rwxr-xr-x 1 root root 1.1G 7月  14 21:51 sa.bin
-rwxr-xr-x 1 root root 287M 7月  14 21:51 txpInfo.bin
-rwxr-xr-x 1 root root   96 7月  14 21:49 versionInfo.json

| star构建索引文件

| subread构建的索引文件：

-rwxr-xr-x 1 root root 766M 7月   5 06:27 hg38.00.b.array
-rwxr-xr-x 1 root root 5.0G 7月   5 06:45 hg38.00.b.tab
-rwxr-xr-x 1 root root  29K 7月   5 06:45 hg38.files
-rwxr-xr-x 1 root root    0 7月   5 06:45 hg38.log
-rwxr-xr-x 1 root root  14K 7月   5 06:27 hg38.reads

| fastq格式文件：

第一行以@开头，之后为序列的标识符以及描述信息（与FASTA格式的描述行类似）
第二行为序列信息
第三行以+开头，之后可以再次加上序列的标识及描述信息（可选）
第四行为质量得分信息，与第二行的序列相对应，长度必须与第二行相同

## 文件格式可为  #.fastq  #.fq
-rwxr-xr-x 1 root root     300308 7月   4 23:57 7E5240_L1_A001.L1_1_fastqc.html
-rwxr-xr-x 1 root root     401515 7月   4 23:57 7E5240_L1_A001.L1_1_fastqc.zip
-rwxr-xr-x 1 root root 2899602923 7月   4 23:57 7E5240_L1_A001.L1_1.fastq.gz
## 打开 7E5240_L1_A001.L1_1.fastq.gz
## @仪器号：运行号：flowcell ID号：Lane号：Tile号：X坐标：Y坐标  Read号：是否过滤：质控号：index序列
   @HISEQ: 820  :CBD38ANXX    :   1  :  1101 : 1233: 2135    1  :    N   :   0  : ATCACGA
   CTGAGCTGCTCCTTCACCCAGACCTCGATATGCTTGTTCCACTTCATGGTGAACACATAGAAGGCATAGGCCAGCAGCAGCAGNAGG
   +
   BBBBBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF</<<<

| 基因组索引文件格式：gtf2文件

GTF（Gene Transfer Format）格式是借鉴于GFF2格式，也被称为GFF2.5，大部分字段的定义是和GFF2相同的，只是每行的第九列必须带有如下四个域，具体为gene_id value; transcript_id value; 这样的设计是为了适应一个基因的多个转录本这种情况。GTF格式主要用来注释基因：

[图片上传失败...(image-8d42c2-1536734614697)]

| gff3文件

gff主要用来注释基因组

序号	GTF			GFF
1	Sequid	参考序列ID		Seqname	序列名称	染色体ID/contig ID
2	Source	注释来源	指明产生此文件的软件或方法	Source	注释来源	预测软件名/公共数据库
3	Type	类型
4	Start	开始位点	从1开始计数	Start	开始位点	从1开始计数
5	End	结束位点		End	结束位点
6	Score	得分		Feature	结构特点
7	Strand	正/负链		Score	得分
8	Phase	步进	＋正链，－负链， ·无需指定正负链	Strand	正/负链	＋正链，－负链
9	Attributes	属性		frame	密码子偏移

##两种格式的转换
#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

| SAM文件

SAM（sequence alignment/map format）：由标头注释部分和比对部分组成

| sam标头注释部分

##  @HD，说明符合标准的版本、对比序列的排列顺序
    @HD VN:1.3                      SO:coordinate
    @SQ SN:chr10                    LN:135534747   ## LN:参考序列的长度
##  @SQ，参考序列说明
    @SQ SN:chr7_gl000202_random     LN:40103
    @SQ SN:chrUn_gl000249           LN:38502
    @SQ SN:chrX                     LN:155270560
##  @RG，比对上的序列（read）说明
##  @CO，任意的说明信息。
##  @PG，使用的比对程序说明
    @PG ID:bwa  PN:bwa  VN:0.7.15-r1140 CL:/home/jianmingzeng/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M /home/jianmingzeng/reference/index/bwa/hg19 control.clean.R1.fq.gz                           control.clean.R2.fq.gz

| 比对部分

##字段 [            1               ]  [2 ] [ 3 ] [ 4 ]  [5] [ 6  ] [ 7 ]  [   8   ] [ 9 ]
D00691:39:C7HGRANXX:7:1102:7445:18770  99  chr10  93614  60  126M    =     93621     133   D00691:39:C7HGRANXX:7:1102:7445:18770  147 chr10  93621  60  126M    =     93614     -133   
D00691:39:C7HGRANXX:7:2302:14294:49245 323 chr10  94741  5   56H70M  chr9  140136176 0

##[        10.         ]  [                              11                             ]
CCAC...CCTC  BBBB...FFFF  NM:i:0  MD:Z:126  AS:i:126  XS:i:106  XA:Z:chr18,-75762,126M,4;

11个字段	名称	含义	解释
[1]	QName	比对片段的编号
[2]	Flag	常用&高效保存多个布尔特征值
[3]	Rname	比对到参考序列上的染色体号	若无法比对，则是*
[4]	Position	比对上的位置	从1开始计数,未比对上则为0
[5]	Mapq	比对的质量分数	越高说明该read比对到参考基因组上的位置就越准确
[6]	Cigar	简要比对信息表达式	其以参考序列为基础，使用数字加字母表示比对结果。
[7]	Mrnm(chr)	下一片段比对上的参考序列编号
[8]	Mate position	下一片段比对上的位置
[9]	Isize	Template的长度	如果不可用，此处为0
[10]	Sequence
[11]

[6]	解释	翻译
M	match或 mismatch
I	Insert
D	Deletion
N	Skipped
S	Soft cliping
H	Hard ciliping
P	Padding
=	Match
X	Mismatch	错配，位置一一对应

[11]	解释	翻译
AS	Alignment score generated by aligner	比对得分
NM	Edit distance to the reference, including ambiguous bases but excluding clipping	对引用的编辑距离，包括不明确的基，但不包括剪切
MD	String for mismatching positions. Regex : [0-9]+(([A-Z]\|^[A-Z]+)[0-9]+)*10.
NH	Number of reported alignments that contains the query in the current record
X?	Reserved fields for end users

| bam文件

| bed文件

bed（Browser Extensible Data）：是ucsc 的genome browser的一个格式，描述注释的数据。bed有3个要求的字段（基本列）和9个额外的字段（附加列）

#[1]    [ 2 ]   [ 3 ]   [5] 
chrM    13357   13651   trf 2   162.5   2   67  19  173 47  0   0   52  1.00    TA
chrM    13436   13585   trf 7   23.9    7   66  28  61  46  0   0   53  1.00    ATTATAA
chrM    13406   13658   trf 9   28.7    9   66  15  63  45  0   0   54  0.99    TATTATATT
## 可选列
#1 name #feature的名字
#2 score 0-1000的分值，如果track线在注释时属性设置为１，那么这个分值会决定显示的灰度水平，数字越大，灰度越高
#3 strand定义链的+/—
#4 thickStart #feature的起始
#5 thickEnd #feature的终止
#6 termRgb R, G, B (eg. 255, 0, 0), 如果track line itemRgb属性是设置为'On”, 这个RBG 值将 决 定数据的显示的颜色在BED 线。
#7 blockCount #exon个数
#8 blockSize #每个exon的大小
#9 blockStarts #以chromStart为起点的各个exon的起始点

| Bigbed

| vcf文件

vcf（Variant Call Format）：格式是用于表示突变信息的文本格式，可以用来表示SNV（single nucleotide variants）,INDEL（ insertions/deletions）, CNV（copy number variants ）and SV（structural variants）等。VCF格式同样是分为两大部分，一部分是注释描述信息，一部分是具体的突变信息，其中注释信息是以##开头的。

来源：samtools、GATK

应用：

#CHROM  POS ID      REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
chr1    873762  .       T   G   5231.78 PASS    AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL   0/1:173,141:282:99:255,0,255
chr1    877664  rs3828047   A   G   3931.66 PASS    AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
chr1    899282  rs28548431  C   T   71.77   PASS    AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
chr1    974165  rs9442391   T   C   29.84   LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255
#1 CHROM 即chromosome， 染色体名称；
#2 POS 即position， 发生突变的参考序列的位置（从1开始计数）；
#3 ID 突变的名称；
#4 REF 参考序列POS上的碱基；
#5 ALT 发生突变的碱基，多个的话以,连接， 可选符号为ATCGN*，大小写敏感；
#6 QUAL 基于Phred格式的表示ALT的质量，也可以理解为可靠性；
#7 FILTER 过滤后的状态，即按照可靠性进行筛选；
#8 INFO 额外信息，可结合注释描述信息进行理解

| Bigwig/Wiggle

https://wiki.bits.vib.be/index.php/Category:Formats
未完待续....