粗读了文章中的几张图片,整理笔记如下。
DNA重复
人类基因组包含大量DNA重复区域:
这些重复区域在染色体上分布情况如下:
重复区域的比对
虽然一个基因可能有多拷贝,当拷贝之间可能存在一定的差异。下图中,表示两个拷贝,两者相似度100%。是相似度只有70%的两个拷贝。
当reads比对到这些重复区域时,如果一个reads存在多个等同的多比对,则认为可信度非常低(A图红色)。如果多比对之间存在一定差异,则得分高的比对位置可信度越高(A图蓝色)。
比对可能引起假阳性(B图)。位置a和b均只有1个错配,如果gap罚分高于mismatch,则a得分高,则比对工具认为序列比对到a位置。但可能该reads实际来自于b位置。
多比对定量
多比对发生时,reads处理方式有3种:
reads剔除,不纳入统计;
reads分配给得分最高的位置。如果存在多个得分最高的位置,随机选择一个位置分配;
reads同时分配给多个位置。
DNA重复单元给组装带来挑战
下图描述DNA重复单元引起的组装错误。方块A、B、C、D分别表示4个DNA片段,R1和R2表示两个重复。
以A图为例,Ab表示实际情况,Ac表示重复引起的错误组装。
图B和C同理。