前言
本文介绍了SAM 格式 字段说明, 以及相关术语解释
详细介绍参见SAM标准说明
http://samtools.github.io/hts-specs/SAMv1.pdf
概念解释
Linear alignment
线性对比, 不考虑方向上的变化
An alignment of a read to a single reference sequence that may include insertions,
deletions, skips and clipping, but may not include direction changes
Chimeric alignment 嵌和比对
TODO
Read alignment 读段比对
A linear alignment or a chimeric alignment that is the complete representation of the
alignment of the read.
Multiple mapping 多行比对
Read的正确的位置可能是模糊的,由于重复序列
第一次的是primary
剩余的则是secondary alignment
Typically the alignment designated primary is the best alignment, but the decision may be
arbitrary
coordinate system
其实简单讲就是从0计数(计算机里面的数组)还是从1计数(数学习惯)
SAM ,Sequence Alignment/Map format
base-calling
SAM格式由两部分组成
Demo
header section 注释信息
注释信息以@
开头
正则匹配
/^@[A-Z][A-Z](\t[A-Za-z][A-Za-z0-9]:[ -~]+)+$/ or /^@CO\t.*/.
符号 | 含义 |
---|---|
@HD | 说明符合标准的版本, 对比序列的排列顺序 |
@SQ | 参考序列说明 |
@RG | 对比上的序列(read)说明 |
@PG | 使用的程序说明,Program |
@CO | 任意的说明信息 |
ps : 原来read还有序列的意思
alignment section 比对区域(结果)
数据如果不可用用 0
或者*
号表示· 字段与字段之间用Tab
相间隔
字段说明
1.QNAME
Query Template Name
参照 fastaq中对于Read标识的介绍
2.FLAG
这是一个16位二进制的数字, 每一位都有其特殊的标识, 1 是; 0 不是
下表 只出现了12个, 而系统多预留4位, 为后期拓展使用
3.RNAME
Reference sequence NAME of the alignment。
4. POS
1-based leftmost mapping POSition of the first matching base。
比对上的位置(从1开始, 1-based coordinate system)
5. MAPQ
Mapping Quality 比对质量
-10 * log10Pr{mapping position is wrong} - 取整
not available: 255
6.CIGAR
CIGAR string
CIGAR (Compact Idiosyncratic Gapped Alignment Report , 简要信息对比表达式)
demo
3S6M1P1l4M
前三个碱基被剪切去除了,然后6个比对上了,然后打开了一 个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的;
7.RNEXT
Reference sequence name of the primary alignment of the NEXT read in the template
序列比对到参考序列的名称 TODO
8. PNEXT
Position of the primary alignment of the NEXT read in the template
比对的位置[ TODO]
9. TLEN
singed observerd Template length
插入片段的长度[TODO]
10. Segment SEQuence
Segment SEQuence.
序列信息
11. QUAL
ASCALL of base QUALity plus33
跟Sanger FASTQ format 相同
12. Optional Field
可选字段(optional fields),格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。
AS:i:匹配的得分 XS:i:第二好的匹配的得分 YS:i :mate 序列匹配的得分 XN:i :在参考序列上模糊碱基的个数
XM:i: 错配的个数 XO:i: gap open的个数 XG:i: gap 延伸的个数 YF:i: 说明为什么这个序列被过滤的字符串
MD:Z: 代表序列和参考序列错配的字符串