记录今天学会的一个小知识:统计测序文件的reads长度分布
由于某些原因,需要统计reads长度分布对建库方法进行质控,对测序数据进行可用与否的评估。
有两个文库:质检差别比较大,一个从100bp开始起峰,主峰在200bp;另一个从200bp开始起峰,主峰在300+bp
为了去探究两种文库到底哪一种更适合我们进行下游的分析,因此我们进行了这个操作。
首先需要产生sorted的bam文件,并利用 samtools index -b test.bam
命令产生相应的index file
接下来使用不知道到底是deeptools还是bedtools的bamPEFragmentSize进行统计分析:
bamPEFragmentSize --histogram fragmentSize.png -T "Fragment Size" --maxFragmentLength 1000 -b <input.sorted.bam> --samplesLabel <sample_name>
**届时统计结果会直接输出屏幕,而png会直接产生,可下载本地查看,如果增加--table参数还会输出一个table。具体参数详见[bamPEFragmentSize — deepTools 3.5.0 documentation]
(https://deeptools.readthedocs.io/en/develop/content/tools/bamPEFragmentSize.html)
例图如下:
另外还有其他方法详见博文:给你bam文件,你会画插入片段长度分布图吗? - 云+社区 - 腾讯云 (tencent.com)
PS:实测bamPEFragmentSize出结果很快,约莫1-2分钟,而给出链接的博文很慢很慢很慢呐