把之前写在CSDN的博文搬运了过来,集中记录自己的学习过程。
1.下载参考基因组
根据文章里的“Data deposition: The sequence reported in this paper has been deposited in the GenBank database (accession no. AE005673).”,可进入genebank下载数据。
下载选择:1)如果想直接下到服务器里,一般选择send to-files-summary,然后会下载得到一个文件,里面有download的地址,再在服务器里wget就行了,但是我试了一下,文件里只有三行基本的数据描述信息。
2)选择fasta格式先下载到本地,再上传服务器。注:ncbi的ftp服务器一般是用于下载GEO的数据。
3)可选择不同的数据库。常用参考基因组下载地址
Ensembl数据库是由欧洲分子生物学实验室下属的生物信息研究所以及sanger公司共同开发,提供真核生物基因序列及其注释信息并对之进行管理的数据库。除此以外,Ensembl还能进行基因信息整合、数据分析以及生物信息学处理等功能,被广泛应用。Ensembl与NCBI的NCBI Map Viewer和UCSC是最为常用基因组检索数据库。
mkdir -p ~/project/hic/ref
cd ~/project/hic/ref
nohup wget ftp://ftp.ensemblgenomes.org/pub/bacteria/release-40/fasta/bacteria_20_collection/caulobacter_crescentus_na1000/dna/Caulobacter_crescentus_na1000.ASM2200v1.dna.toplevel.fa.gz &
2.构建bowtie2索引
对于生信小白我而言,摆在我面前的主要有两个问题:bowtie2是干嘛的软件?为什么要构建bowtie2索引?
问题1:bowtie2是干嘛的软件?
Bowtie是一个超级快速的,较为节省内存的短序列拼接至模板基因组的工具。它在拼接35碱基长度的序列时,可以达到每小时2.5亿次的拼接速度。
Bowtie并不是一个简单的拼接工具,它不同于Blast等。它适合的工作是将小序列比对至大基因组上去。它最长能读取1024个碱基的片段。模板最小尺寸不能小于1024碱基,而短序列最长而不能超过1024碱基。换言之,bowtie非常适合下一代测序技术。
在使用bowtie前,需要使用bowtie-build来构建比对模板。
问题2:为什么要构建bowtie2索引?
我的理解应该是提高查询速度,毕竟bowtie的作用就是在大的字符串里找小字符串,涉及到BTW算法,我这菜鸟就不懂了。。生信进阶就是要知其然并知其所以然的。
直接locate bowtie2,选择/bin/bowtie2-build
再右键过去,就会出来bowtie2的具体信息啦,然后就可以直接使用啦。
记住要进入文件所在文件夹才行。
得到6个索引文件。完成。