概念介绍
Read 读段
Read 中文翻译: 读段,来自测序仪的raw data
一个Read 可能由多个片段组成, Read的索引是测序时的顺序
Sequencing quality 测序质量
测序仪在测序的时候,每次测出来的结果可能都不一样(仪器误差 序列长度等各方面因素), 所以往往需要多测几次,最后开决定是哪一个碱基。
Sequencing quality 是度量测序仪测序质量的指标。
测序质量指标有很多种 , 最常用的的是Phred quality score。
Sequencing quality metrics can provide important information
about the accuracy of each step in this process, including library
preparation, base calling, read alignment, and variant calling. Base
calling accuracy, measured by the Phred quality score (Q score), is the
most common metric used to assess the accuracy of a sequencing
platform. It indicates the probability that a given base is called
incorrectly by the sequencer.
Phred quanlity score 测序质量分数
概念
illumina 质量分数说明
https://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf
Q scores are used to measure base calling accuracy, one of the most
common metrics for assessing sequencing data quality. Low Q scores
can lead to increased false-positive variant calls, resulting in inaccurate
conclusions and higher costs for validation experiments.
测序质量分数
Q
Phred quality scores
P
base-calling-error probabilities
简单来说 Q越大 就说明测序质量越好
https://en.wikipedia.org/wiki/Phred_quality_score
格式
不同的测序仪采用不同的测序标准, 取值范围不同
在存入Fastq格式的时候往往需要将数值转换为单个字符,要将数值范围映射到ASCII码上
对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:
Sanger,Phred quality score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。
Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;
Illumina 1.3+,Phred quality score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;
Illumina 1.5+,Phred quality score,但是0到2作为另外的标示,详见http://solexaqa.sourceforge.net/questions.htm#illumina
Illumina 1.8+
测序仪产生的数据格式
不同测序仪,不同版本号,产出的数据格式不一定相同
测序平台 | 文件格式 | 说明 |
---|---|---|
454测序 | FASTA / FASTAQ | |
Illumina/Solexa | FASTQ | |
SOLiD | CSFASTA / QV.qual质量文件 | 测序结果包含峰值 |
下面的这四行就是一行Read(这里我们以FASTQ格式为例)
fastq 格式说明
@HWI-ST507:4:75:4291:2239#0/1
AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG
+HWI-ST507:4:75:4291:2239#0/1
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]
第一行: @文件识别标志 + Read ID
HWI-ST507:4:75:4291:2239#0/1
说明
数据 | 含义 | 说明 |
---|---|---|
HWI-ST507 | 测序仪的唯一编号 | - |
4 | 测序通道 | 说明这批数据是在测序仪的第四通道测出来的 |
75 | Read读长 | 代表每个Read的长度都是75bp |
4291:2239 | 测序仪中的坐标数 | |
#0 | 多样本测序时候的索引 | #0 代表单样本测序 |
/1 | ? | 每对paired-end 或者mate-pair的reads中的第一个 |
第二行:序列
第三行: + 文件标识标识 + Read ID
第三行的+后面的跟第一行相同, 可以省略, 但是
+
不可省略
第四行:质量分数
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]
对应到到该仪器版本所采用过的phred标准,对应的ascall码范围求得整数质量分数值