bowtie2比对结果之multi-hits

了解到在seq中multi-hits的定义是 unique best hit, 即是read比对到了不同的位置，但是获得了同样的最高分数。而bowtie2默认的 >1 alignments 统计的是分数不低于 threshold 的 alignments 的数量。因此两种统计数字会出现偏差。

for FN in *.fa; do
  echo $FN
  GN=`echo $FN | cut -d'.' -f2`
  bowtie2 -k 2 --end-to-end -f --large-index -x ~/*basename -U ${FN} -S `echo $FN | sed s/.fa//g`.bowtie2.${GN}.sam 2> `echo $FN | sed s/.fa//g`.bowtie2.${GN}.log &
done

(for i in *.bowtie2.*.sam; do
  echo -e $i"\t"`gawk '!/^@/' $i | cut -f1,3,12 | gawk 'NR%2==1{ printf("%s\t%s\t%s\t", $1, $2, $3);} NR%2==0{ printf("%s\t%s\n", $2, $3);}' | sed 's/AS:i://g' | gawk '{T++; if($3==$5){C++;}} END{printf("%.2f%\n", C*100/T);}'`
done ) > multiple_hits.bowtie2

关于重定向

liunx 的file descriptor有三种 stdin、 stdout、 stderr 。其中重定位符>默认是 stdout，因此如果在指令出现错误的情况下，错误信息并不会被重定位至文件中。操作 stderr 的方法是 2> 。如果想将 stdout、 stderr 重定位至同一个文件中，方法为command > file 2>&1 。2>&1在后面的原因是

command > file 2>&1
command > file
 将标准输出重定向到file中， 2>&1 是标准错误拷贝了标准输出的行为，也就是同样被重定向到file中，最终结果就是标准输出和错误都被重定向到file中。
command 2>&1 >file
2>&1 标准错误拷贝了标准输出的行为，但此时标准输出还是在终端。>file 后输出才被重定向到file，但标准错误仍然保持在终端。

接上文

代码第一行的行为是使用bowtie进行比对，并将错误信息保存至日志文件中。第二行的行为是进入bowtie比对后的sam格式文件中将alignment的分数信息提取出来，两两比对是否相同。最后计算aligment综述与分数相同alignment数量的比值。这段代码的目的是某一次比对的 unique best hit 的比例。但是这样计算出来的结果可能并不正确。

在使用bowtie2进行比对的时候使用了参数-k 2。使用这个参数的原因是需要统计的量是multi-hits的数量，而只要只要找到一个以上，即2个，即可将这个read计入multi-hits中。
引用bowtie2 manual的说法

When -k is specified, however, bowtie2 behaves differently. Instead, it searches for at most <int> distinct, valid alignments for each read. The search terminates when it can't find more distinct valid alignments, or when it finds <int>, whichever happens first.

这说明即便使用了-k 2参数，也不能保证每个 read 都能有2个 alignment ，而这正是上面那段代码的基础。下面我进行了一些验证。

首先，我模拟了10000个随机的read。按照预想的情况-k 2参数应该保证在sam文件中，应该会有精确的20000行alignmen信息。而实际上alignment信息只有13528行，所以这个前提条件是不可能成立的。
另外一方面，两个alignment的所属的read名称应该相同。而实际上有很多单独的alignemnt。

那么使用这样可能会不成立的前提条件会导致什么结果呢。可以肯定的是，并不会有什么错误信息出现。对于模拟数据而言，由于没有加入点突变的错误率，所有read都是基因组的无错误复制，导致大量的alignment的分数都是 end-to-end 模式下的最高分0分，进而导致大量实际上并没有组成unique best hit的pair分数相同，进而导致被认定为multi-hits，进而导致比率虚高。

那么正确的比率应该如何计算呢。

确认两个alignment属于同一个read
确认两者的分数相等

修正后的比率有很大的降低。

关于bash脚本的执行过程

上面那段代码逻辑上可以分为两个部分，第一部分调用bowtie程序并将alignment结果保存在sam格式的文件中。第二部分代码读取sam文件中的内容，提取alignment信息统计multi-hits数量。执行顺序应为等待第一部分执行完毕后，等待sam文件生成完整，再执行第二部分代码。然而在实际执行过程时，几乎是瞬间提示不存在.sam文件，这说明并不是等待结束的顺序执行。查到一个命令 wait 在两部分代码之间加入这个命令可以过得理想顺序。

一个疑问。我之前写的一个脚本的执行顺序与此不同。有待检查。

最后编辑于：2017.12.06 00:02:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,383评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,522评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,852评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,621评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,741评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,929评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,076评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,803评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,265评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,582评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,716评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,395评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,039评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,798评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,027评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,488评论 2赞 361
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,612评论 2赞 350

bowtie2比对结果之multi-hits

关于重定向

接上文

关于bash脚本的执行过程

推荐阅读更多精彩内容